Bestimmen Sie den Stichprobenumfang vor Beginn eines Experiments oder führen Sie das Experiment auf unbestimmte Zeit durch?


12

Ich habe vor Jahren Statistik studiert und alles vergessen, so dass dies als allgemeine konzeptionelle Fragen erscheinen mag, aber hier ist mein Problem.

Ich arbeite als UX Designer für eine E-Commerce-Website. Wir haben ein vor Jahren gebautes A / B-Test-Framework, an dem ich anfange zu zweifeln.

Die Metrik, über die wir alle unsere Entscheidungen treffen, wird als Conversion bezeichnet und basiert auf dem Prozentsatz der Benutzer, die die Website besuchen und am Ende etwas kaufen.

Daher möchten wir testen, wie Sie die Farbe der Schaltfläche "Kaufen" von "Grün" in "Blau" ändern.

Die Kontrolle ist das, was wir bereits haben, der grüne Knopf, wo wir wissen, wie hoch unsere durchschnittliche Conversion-Rate ist. Das Experiment ersetzt die grüne Taste durch die blaue Taste.

Wir sind uns einig, dass 95% Signifikanz das Vertrauensniveau ist, mit dem wir zufrieden sind, und wir schalten das Experiment ein und lassen es laufen.

Wenn Benutzer die Site besuchen, besteht hinter den Kulissen eine 50/50-Chance, dass sie an die Kontrollversion (grüne Taste) im Vergleich zur Testversion (blaue Taste) gesendet werden.

Wenn ich mir den Versuch nach 7 Tagen ansehe, sehe ich eine Steigerung des Umsatzes um 10,2% zugunsten des Versuchs bei einer Stichprobengröße von 3000 (1500 zur Kontrolle, 1500 zum Versuch) und einer statistischen Signifikanz von 99,2%. Hervorragend finde ich.

Das Experiment wird fortgesetzt, die Stichprobengröße wächst und dann sehe ich eine Steigerung der Konversion um + 9% mit einer Signifikanz von 98,1%. Okay, lassen Sie das Experiment länger laufen und jetzt zeigt das Experiment nur noch eine Steigerung der Conversion um 5% mit einer statistischen Signifikanz von nur 92%. Der Rahmen sagt mir, dass ich 4600 weitere Proben benötige, bevor ich eine Signifikanz von 95% erreiche.

Ab wann ist das Experiment dann schlüssig?

Wenn ich an einen klinischen Studienprozess denke, bei dem Sie sich im Voraus auf die Probengröße einigen und nach Abschluss des Experiments eine 10% ige Verbesserung der Messgröße auf 99% ige Signifikanz feststellen, wird die Entscheidung getroffen, dass das Medikament dann auf den Markt kommt. Aber wenn sie das Experiment an 4000 Personen durchgeführt hätten und eine 5% ige Verbesserung irgendeiner Metrik auf nur 92% signifikant sehen würden, dann würde dieses Medikament nicht auf den Markt kommen dürfen.

Sollten wir uns im Voraus auf einen Stichprobenumfang einigen und ihn beenden, sobald dieser Stichprobenumfang erreicht ist, und mit den Ergebnissen zufrieden sein, wenn die Signifikanz zum Zeitpunkt des Abschaltens des Experiments 99% betrug?


1
Sie können einen anderen Ansatz in Betracht ziehen, der auf Rangfolge und Auswahl basiert .
pjs

Ich bin auf diesen Film gestoßen ( youtube.com/watch?v=fl9V0U2SGeI ). Klingt für mich so, als würde es deine Frage genau beantworten.
Nathan

Erwähnenswert ist auch, dass die zugrunde liegende Sache des Studiums sehr reflexiv ist, sich schnell bewegt und ständige Wiederholungstests erfordert. Layouts, Farben, Schaltflächen usw. bewegen sich schnell, wenn neue Sites, Standards und Stile erscheinen. Auch ein hohes Maß an Kombinationsproblemen (diese Schaltfläche kann zu unterschiedlichen Ergebnissen führen, wenn die Hintergrundfarbe geringfügig geändert wird usw.). Unabhängig von den Signifikanzniveaus können Sie daher kein sehr hohes „echtes“ Vertrauen in die Ergebnisse haben (und dies schon gar nicht für längere Zeit), selbst wenn sie sehr stark aussehen.
Philip

Antworten:


11

Ich denke, das Konzept, nach dem Sie suchen, ist die sequentielle Analyse. Auf dieser Website gibt es eine Reihe von Fragen, die mit dem Begriff gekennzeichnet sind, den Sie vielleicht nützlich finden . wäre ein Ort, um zu beginnen. Sie können auch den Wikipedia-Artikel hier konsultieren . Ein weiterer nützlicher Suchbegriff ist Alpha-Ausgaben, der sich aus der Tatsache ergibt, dass Sie bei jedem wiederholten Blick davon ausgehen sollten, dass ein Teil Ihres Alphas (Signifikanzniveau) verbraucht ist. Wenn Sie Ihre Daten weiterhin einsehen, ohne die mehrfachen Vergleiche zu berücksichtigen, stoßen Sie auf die Art von Problem, die Sie in Ihrer Frage umreißen.


Danke, das sind einige gute Leseempfehlungen. Ich würde nicht einmal wissen, wonach ich sonst gesucht hätte. Wird dies verbrauchen.
Tech 75

5

Ab wann ist das Experiment dann schlüssig?

Ich denke, hier liegt der Denkfehler. Es gibt keinen Punkt, an dem das Experiment "schlüssig" sein kann, wenn Sie dies als "deduktiv nachweisen" bezeichnen. Wenn Sie ein Experiment mit einem statistischen Test durchführen, müssen Sie festlegen, welche Beweise Ihrer Meinung nach gut genug sind.

Statistisch fundierte experimentelle Verfahren liefern Ergebnisse mit bekannten Raten von falsch positiven und falsch negativen Ergebnissen. Wenn Sie ein Verfahren gewählt haben, bei dem 0,05 als Signifikanzschwelle verwendet wird, möchten Sie damit einverstanden sein, dass in 5% der Fälle, in denen tatsächlich kein Unterschied besteht, Ihr Test einen Unterschied feststellt.

Wenn Sie in der von Ihnen beschriebenen Weise von der Prozedur abweichen (ohne vorher einen Haltepunkt zu wählen), führen Sie den Test einfach aus, bis Ihr berechneter p-Wert unter 0,05 fällt, oder führen Sie den gesamten Test mehrmals aus, bis Sie ein positives Ergebnis erhalten usw.) machen Sie es wahrscheinlicher, dass Ihr Test Ihnen sagt, dass ein Unterschied besteht, wenn es tatsächlich keinen Unterschied gibt. Sie machen es wahrscheinlicher, dass Sie in die Irre geführt werden und glauben, dass Ihre Änderung wirksam war. Lass dich nicht täuschen.

Lesen Sie diesen Artikel : Falsch-Positive Psychologie Unbekannte Flexibilität bei der Datenerfassung und -analyse ermöglicht es, alles als wichtig darzustellen

Es werden verschiedene Möglichkeiten aufgezeigt, wie Sie ein Testverfahren falsch beeinflussen können, sodass es wahrscheinlicher ist, dass Sie sich täuschen lassen, einschließlich des genauen Szenarios, das Sie beschreiben (ohne zu wissen, wann Sie ein Experiment beenden sollen).

Andere Antworten geben Ihnen einige Lösungen, um diesen Problemen entgegenzuwirken (sequenzielle Analyse, Bonferroni-Korrektur für Mehrfachvergleiche). Aber diese Lösungen, während in der Lage , die falsch-positive Rate zu steuern, reduziert typischerweise die Leistung des Experiments, so dass es weniger wahrscheinlich , dass Unterschiede erkennen , wenn sie tun exist.


Es gibt einen weiteren Fehler, den Sie machen. Sie sprechen von einer "10% igen Verbesserung einer beliebigen Metrik auf 99% ige Signifikanz". Signifikanztests können nur Aufschluss darüber geben, ob der beobachtete Unterschied in Ihrer Stichprobe wahrscheinlich auf einen tatsächlichen zugrunde liegenden Unterschied oder auf zufälliges Rauschen zurückzuführen ist. Sie geben Ihnen keine Konfidenzintervalle bezüglich der tatsächlichen Größe des Unterschieds.


3

Ich denke, Sie stellen hier die falsche Frage. Die Frage, die Sie stellen, bezieht sich auf statistische Tests. Ich denke, die richtige Frage lautet: "Warum ändert sich der Effekt mit der Zeit?"

Wenn Sie eine 0/1-Variable für die Konvertierung messen (haben sie überhaupt gekauft?), Kommen Personen, die in einer ersten Sitzung nicht gekauft haben, möglicherweise zurück und kaufen später. Dies bedeutet, dass die Conversion-Rate mit der Zeit zunimmt und der Effekt, dass ein Kunde bei seinem ersten Besuch im Gegensatz zu späteren Besuchen kauft, verloren geht.

Mit anderen Worten, zuerst was richtig machen Sie messen, dann Sorge um , wie Sie messen.


3

Genau aus diesem Grund muss vor den Versuchen ein klares Kriterium festgelegt werden. Wie @mdewey angibt, gibt es etablierte Methoden zur regelmäßigen Bewertung eines Versuchs, für die jedoch alle ein klares Stoppkriterium erforderlich ist, um eine falsche Entscheidung zu verhindern. Zwei wichtige Punkte sind, dass Sie mehrere Vergleiche korrigieren müssen und dass jede Analyse nicht unabhängig ist, ihr Ergebnis jedoch stark von den Ergebnissen Ihrer vorherigen Analysen abhängt.

Alternativ kann es eine bewährte Methode sein, eine festgelegte Stichprobengröße basierend auf kommerziell relevanten Argumenten zu definieren.

Zunächst sollte sich das Unternehmen darauf einigen, wie hoch eine kommerziell relevante Änderung des Conversion-Satzes ist (dh welche Differenzgröße erforderlich ist, um einen kommerziellen Fall für die dauerhafte Bereitstellung der Änderung zu rechtfertigen). Ohne diese Zustimmung gibt es keinen vernünftigen Maßstab.

Sobald die minimale kommerziell relevante Effektgröße festgelegt ist (dies kann sich von Fall zu Fall ändern, je nachdem, wie kritisch der zu testende Schritt ist), stimmen Sie dem Risiko zu, das das Unternehmen bereit ist, zu akzeptieren, wenn ein echter Effekt ausbleibt ( beta) und um einen falschen Effekt zu akzeptieren (alpha).

Sobald Sie diese Zahlen haben, stecken Sie sie in den Probengrößenrechner und in voila, haben Sie Ihre festgelegte Probengröße, um eine Entscheidung zu treffen.


BEARBEITEN

Kleine Stichprobengrößen zu verwenden und zu hoffen, dass sie eine ausreichend große Wirkung zeigen, ist eine falsche Wirtschaftlichkeit (da Ihr Ziel darin besteht, verlässliche Ergebnisse umzusetzen, anstatt eine umstrittene Hypothese für die akademische Veröffentlichung zu erstellen). Unter der Annahme einer unverfälschten Stichprobenauswahl ist bei geringen Stichprobengrößen die Wahrscheinlichkeit einer zufälligen Auswahl von Stichproben, die zufällig alle zu entgegengesetzten Extremen weisen, höher als bei hohen Stichprobengrößen. Dies führt zu einer höheren Wahrscheinlichkeit, eine Nullhypothese abzulehnen, wenn tatsächlich kein Unterschied besteht. Dies würde also bedeuten, Änderungen durchzusetzen, die keine wirklichen Auswirkungen haben oder, noch schlimmer, leicht negative Auswirkungen haben. Dies ist eine andere Art zu erklären, worüber @Science spricht, wenn es heißt

"Sie machen es wahrscheinlicher, dass Ihr Test Ihnen sagt, dass ein Unterschied besteht, wenn es tatsächlich keinen Unterschied gibt"

Um Ihre statistische Analyse vorab zu spezifizieren (unabhängig davon, ob es sich um eine von mir beschriebene feste Stichprobengröße oder eine Mehrfachbewertungsstrategie handelt), müssen Sie die Anforderungen von Fehlern des Typs I und II angemessen ausgleichen. Ihre derzeitige Strategie scheint sich auf Fehler vom Typ I zu konzentrieren und Fehler vom Typ II vollständig zu ignorieren.

Wie zahlreiche andere Befragte angegeben haben, sind die Ergebnisse niemals schlüssig. Wenn Sie jedoch sowohl Fehler des Typs I als auch des Typs II und deren Auswirkungen auf Ihr Unternehmen berücksichtigt haben, können Sie mit größter Sicherheit davon ausgehen, dass Änderungen auf der Grundlage der Ergebnisse durchgeführt werden. Letztendlich geht es bei der Entscheidungsfindung darum, mit Ihrem Risikograd vertraut zu sein und Ihre „Fakten“ niemals als unveränderlich zu behandeln.

Ich bin fasziniert von anderen Aspekten Ihres Studiendesigns, die möglicherweise die Ergebnisse beeinflussen, die Sie sehen. Möglicherweise enthüllen sie einige subtile Faktoren, die nicht Ihren Wünschen entsprechen.

Sind die für die Stichprobe ausgewählten Personen alle neuen Besucher, alle wiederkehrenden Besucher oder ist das undifferenziert? Etablierte Kunden tendieren möglicherweise eher dazu, etwas Neues zu kaufen (sie tendieren also dazu, keine bestimmte Farbe zu ändern), aber für neue Kunden ist alles neu.

Kommen die tatsächlichen Personen, die auf klicken, im Zeitrahmen der Studie erneut vor?

Wenn Personen im Verlauf der Studie mehrmals vorbeischauen, wird ihnen dann dieselbe Version präsentiert, oder wird sie spontan nach dem Zufallsprinzip zugewiesen?

Wenn wiederkehrende Besucher mit einbezogen werden, besteht die Gefahr der Expositionsermüdung (dies lenkt nicht mehr ab, da es nicht mehr neu ist).


Danke dafür. Sie legen großen Wert darauf, im Vorfeld eine wirtschaftlich relevante Umstellungsänderung zu vereinbaren. Da sich kleine Änderungen in der Conversion wie beim E-Commerce auf den Umsatz auswirken können, ist dieser Wert recht niedrig.
Tech 75

Der minimale Unterschied, der erforderlich ist, um klein zu sein, ist kein Problem, er stellt sicher, dass Sie die Stromversorgung ordnungsgemäß ausführen.
ReneBt

0

Die gängige Praxis schreibt normalerweise vor, dass Sie zuerst die Stichprobengröße festlegen (um die statistische Aussagekraft Ihres Hypothesentests zu kontrollieren) und dann das Experiment durchführen.

In Reaktion auf Ihre aktuelle Position klingt es so, als würden Sie eine Reihe von Hypothesentests kombinieren. Ich empfehle Ihnen, sich die Methode von Fisher anzuschauen. Darüber hinaus werden Sie sich wahrscheinlich Browns oder Kosts Methoden ansehen wollen, um Fisher's Methode an abhängige Teststatistiken anzupassen. Wie ein anderer Befragter bereits erwähnt hat, wird sich die Conversion (oder Nicht-Conversion) eines Kunden darauf auswirken, ob er beim nächsten Besuch einen Kauf tätigt (oder nicht) - unabhängig von der Farbe der Schaltfläche.

Nachgedanken:

  1. Weitere Informationen und Quellen zu Fischers Methoden und ihren Erweiterungen finden Sie im Wikipedia-Artikel zur Fischermethode.
  2. Ich halte es für wichtig zu erwähnen, dass ein Experiment niemals wirklich schlüssig ist. Ein kleiner p-Wert bedeutet nicht, dass Ihr Ergebnis schlüssig ist - nur, dass die Nullhypothese auf der Grundlage der von Ihnen erfassten Daten unwahrscheinlich ist.
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.