Sicheres Bestimmen des Stichprobenumfangs für A / B-Tests

Ich bin ein Softwareentwickler, der ein A / B-Testwerkzeug bauen möchte. Ich habe keine soliden Statistiken, habe aber in den letzten Tagen viel gelesen.

Ich folge der hier beschriebenen Methodik und werde die relevanten Punkte unten zusammenfassen.

Mit diesem Tool können Designer und Domain-Experten eine Website so konfigurieren, dass der unter einer bestimmten URL empfangene Datenverkehr auf zwei oder mehr URLs aufgeteilt wird. Beispielsweise kann der auf http://example.com/hello1 eingehende Datenverkehr zwischen http://example.com/hello1 und http://example.com/hello2 aufgeteilt werden . Der Datenverkehr wird gleichmäßig zwischen den Ziel-URLs aufgeteilt, und die Leistung der Marketingprozesse an den einzelnen Ziel-URLs wird verglichen.

In diesem Experiment entspricht die Stichprobengröße Nden Besuchern. Der Test misst "Conversions", ein Begriff, der beschreibt, wann sich ein Besucher zu einer bestimmten Aktion in einem Marketingprozess verpflichtet. Conversions werden in Prozent angegeben, und eine höhere Conversion-Rate ist wünschenswert. Dies macht den Test zu einem Vergleich unabhängiger Proportionen. Das Tool muss leicht einsetzbar sein, um Tests mit sicheren Ergebnissen zu erstellen. Es Nist wichtig, einen geeigneten Wert für auszuwählen.

In dem oben verlinkten Artikel wird eine Potenzanalyse mit zwei unabhängigen Proportionen angewendet, um herauszufinden N. Diese Methode erfordert, dass man die Conversion-Rate der Kontrolle im Voraus kennt und die angestrebte Conversion-Verbesserung spezifiziert. Es gibt auch ein Signifikanzniveau von 95% und eine statistische Aussagekraft von 80% an.

Fragen:

Ist dies eine Methode zur Bestimmung des NTons? Wenn ja, wie lässt sich die Conversion-Rate der Kontrolle vor Beginn des Tests am sichersten bestimmen?
Gibt es fundierte Möglichkeiten zur Ermittlung N, die es nicht erfordern, die Umrechnungskurse der Steuerung im Voraus zu kennen?
Ist die Methodik im verlinkten Artikel korrekt? Wenn nicht, gibt es irgendwelche zugänglichen und leicht verdaulichen Methoden, mit denen Sie mich verlinken könnten?

— jkndrkn
quelle

Antworten:

Die gebräuchlichste Methode für diese Art von Tests sind Konfidenzintervalle für Binomialanteile (siehe http://bit.ly/fa2K7B ).

Sie werden nie die "wahre" Conversion-Rate der beiden Pfade kennen, aber dies gibt Ihnen die Möglichkeit, etwas zum Effekt "Mit 99% Sicherheit ist A effektiver bei der Conversion als B" zu sagen.

Beispiel: Nehmen wir an, Sie haben 1000 Versuche in Pfad A durchgeführt. Von diesen 1000 Versuchen waren 121 erfolgreiche Conversions (Conversion-Rate von 0,121) und wir möchten ein Konfidenzintervall von 99% für dieses 0,121-Ergebnis. Der z-Score für 99% -Konfidenzintervalle beträgt 2,576 (Sie sehen dies einfach in einer Tabelle nach). Entsprechend der Formel: Mit 99% können wir also sagen, dass , wo ist die "wahre" Umwandlungsrate von Prozess A.

\begin{aligned} \hat{p} & \pm 2,576 (\sqrt{\frac{0,121 * (1 - 0,121)}{1000}}) \\ \hat{p} & \pm 0,027 \end{aligned}

$\begin{aligned} \hat p &\pm 2.576\left(\sqrt{\frac{0.121 * (1 - 0.121)}{1000}}\right) \\ \hat p &\pm 0.027 \end{aligned}$

0.094 \leq \hat{p} \leq 0.148

$0.094 \le \hat p \le 0.148$

\hat{p}

$\hat p$

Wenn wir ein ähnliches Intervall für Prozess B konstruieren, können wir die Intervalle vergleichen. Wenn sich die Intervalle nicht überschneiden, können wir mit 98% iger Sicherheit sagen, dass eines besser ist als das andere. (Denken Sie daran, dass wir in Bezug auf jedes Intervall nur zu 99% zuversichtlich sind, sodass unsere allgemeine Zuversicht hinsichtlich des Vergleichs 0,99 * 0,99 beträgt.)

Wenn sich die Intervalle überschneiden, müssen wir mehr Versuche durchführen oder entscheiden, dass sie sich in der Leistung zu ähnlich sind, um sie zu unterscheiden, was uns den schwierigen Teil bringt - die Bestimmung von , der Anzahl der Versuche. Ich bin mit anderen Methoden nicht vertraut, aber mit dieser Methode können Sie im Voraus nur bestimmen , wenn Sie eine genaue Schätzung der Leistung von A und B im Voraus haben. Andernfalls müssen Sie nur Versuche durchführen, bis Sie Proben erhalten, damit sich die Intervalle trennen. $N$ $N$

Viel Glück für Sie. (Ich bin übrigens auf Prozess B angewiesen).

— ronny
quelle

Willkommen auf der Seite, @ronny. Da Sie neu hier sind, können Sie unsere FAQ lesen . Diese Seite unterstützt unter anderem über mathjax. Ich habe mir erlaubt, mj hinzuzufügen, um die Lesbarkeit Ihres Beitrags zu verbessern. Stellen Sie sicher, dass es immer noch sagt, was Sie wollen. ZB habe ich "p ^" als "p-hat" ( ) verstanden, aber ich stelle fest, dass Sie sagen, dass es die "wahre" Rate ist, während p-hat häufig verwendet wird, um das aus Ihren Daten geschätzte p anzuzeigen Wir möchten nur sichergehen, dass Ihre Antwort sagt, was Sie möchten, dass es sagt.

L A T E X

$\LaTeX$

\hat{p}

$\hat p$

— gung - Wiedereinsetzung von Monica

ronny, sie haben im allgemeinen recht (nicht nur für dieses verfahren): die vertrauensintervalle und folglich die anforderung an die stichprobengröße sind extrem empfindlich für die wahren verhältnisse von a und b dass Sie sowohl für den wahren Anteil (in ) als auch für die Punktschätzung aus der Beobachtung verwenden. Ich hätte die oberen zwei (berechnet aus der Beobachtung), aber die unteren zwei ohne Hut (für den wahren Anteil).

\hat{p}

$\hat p$

0.094 \leq \hat{p} \leq 0.148

$0.094 \leq \hat p \leq 0.148$

\frac{s u c e s s e s}{t r i a l s}

$\frac{sucesses}{trials}$

\hat{p}

$\hat p$

p

$p$

— cbeleites unterstützt Monica

Diese Antwort ist falsch. Konkret: "Wenn sich die Intervalle nicht überschneiden, können wir mit 98% iger Sicherheit sagen, dass eines besser ist als das andere" ist falsch. Bei zwei nicht überlappenden Konfidenzintervallen von 99% ist die Konfidenz, dass die Differenz 0 ausschließt, mindestens 99%. Wenn die Intervalle gleich groß sind, ist der Unterschied bei etwa 99,97% signifikant. stats.stackexchange.com/questions/18215 cscu.cornell.edu/news/statnews/Stnews73insert.pdf

— Bscan

@Bscan Gilt Ihr Kommentar für andere Werte? ZB ist es richtig zu sagen (gemäß Ihrer Empfehlung), dass die Differenz der Mittelwerte mindestens 30% beträgt, wenn wir zwei nicht überlappende 30% -Konfidenzintervalle gleicher Größe haben?

— Felipe Almeida

@Felipe, ja, der Kommentar gilt für alle Werte. Nicht überlappende 30% -Konfidenzintervalle implizieren, dass die Differenz ohne 0 mindestens 30% beträgt. Dies bedeutet jedoch nicht, dass es einen Mittelwertunterschied von 30% gibt. Das wahre Mittel kann sehr ähnlich sein; wir versuchen nur zu beweisen, dass sie nicht genau gleich sind.

— Bscan

IMHO, so weit es geht, geht die Post in die richtige Richtung. Jedoch:

Die vorgeschlagene Methode geht implizit von zwei Annahmen aus: der Basiskonversionsrate und dem erwarteten Änderungsbetrag. Die Stichprobengröße hängt stark davon ab, wie gut Sie diese Annahmen erfüllen. Ich empfehle Ihnen, die erforderlichen Stichprobengrößen für mehrere Kombinationen von p1 und p2 zu berechnen, die Sie für realistisch halten. Dadurch erhalten Sie ein Gefühl dafür, wie zuverlässig die Stichprobenberechnung tatsächlich ist.
```
> power.prop.test (p1=0.1, p2 = 0.1*1.1, sig.level=0.05, power=0.8)

     Two-sample comparison of proportions power calculation 

              n = 14750.79
             p1 = 0.1
             p2 = 0.11
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

 NOTE: n is number in *each* group 

> power.prop.test (p1=0.09, p2 = 0.09*1.1, sig.level=0.05, power=0.8)

     Two-sample comparison of proportions power calculation 

              n = 16582.2
             p1 = 0.09
             p2 = 0.099
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

 NOTE: n is number in *each* group 
```
Wenn die tatsächliche Conversion-Rate 9% statt 10% beträgt, sind für jedes Szenario weitere 2000 Fälle erforderlich, um die Conversion-Rate zu ermitteln, die 10% über der Basislinie des neuen Formulars liegt.

Nach Abschluss des Tests können Sie anhand Ihrer tatsächlichen Beobachtungen Konfidenzintervalle für die Anteile berechnen.

$n$
$n$ sig.level

— cbeleites unterstützt Monica
quelle

Hallo, vielen Dank, dass Sie sich die Zeit genommen haben, diese Methoden zu kritisieren. Worauf bezieht sich "α" in der Berechnung (1 - α) ² ≈ 10%? Da das Erfassen von Testdaten viel Zeit in Anspruch nimmt, wie sollte dieses Experiment aufgebaut werden, wenn drei Proportionen getestet werden sollen? Gibt es eine sichere Möglichkeit, ohne mehrere Tests durchzuführen? Mit drei Alternativen sind drei Tests nicht sonderlich belastend, aber mit vier Alternativen schießt die Anzahl der Kombinationen auf sechs.

— Jkndrkn

@jkndrkn: α ist die Wahrscheinlichkeit, mit der fälschlicherweise von der ursprünglichen Form abgewichen wird, auch bekannt als α-Fehler oder Typ I-Fehler. Siehe aktualisierte Antwort.

— cbeleites unterstützt Monica

@jkndrkn: Mehrere Tests: Ich würde einen Blick auf Fleiss et al .: Statistische Methoden für Raten und Proportionen über Verfahren für solche Tests werfen . Entscheidend für solche Mehrfachtests ist es jedoch immer, vor der Definition des Tests die Anzahl der Alternativen durch Expertenwissen so gering wie möglich zu halten, da die erforderlichen Stichprobengrößen mit der Anzahl der Alternativen explodieren (wie Sie bereits festgestellt haben).

— cbeleites unterstützt Monica

-1

Anstatt überlappende Intervalle zu berechnen, berechnen Sie den Z-Score. Dies ist algorithmisch einfacher zu implementieren, und Sie erhalten statistische Bibliotheken zur Unterstützung.

Schauen Sie sich das an: https://onlinecourses.science.psu.edu/stat200/node/53

— Shambhu
quelle