Ich versuche, die Argumentation zu verstehen, indem ich bei einem einfachen A / B-Test einen bestimmten Testansatz wähle (dh zwei Variationen / Gruppen mit einer binären Antwort (konvertiert oder nicht)). Als Beispiel verwende ich die folgenden Daten
Version Visits Conversions
A 2069 188
B 1826 220
Die beste Antwort hier ist großartig und spricht über einige der zugrunde liegenden Annahmen für z-, t- und Chi-Quadrat-Tests. Was ich jedoch verwirrend finde, ist, dass verschiedene Online-Ressourcen unterschiedliche Ansätze zitieren und Sie denken, dass die Annahmen für einen grundlegenden A / B-Test ziemlich gleich sein sollten?
- In diesem Artikel wird beispielsweise Z-Score verwendet :
- In diesem Artikel wird die folgende Formel verwendet (bei der ich nicht sicher bin, ob sie von der Zscore-Berechnung abweicht):
- Dieser Artikel bezieht sich auf den t-Test (S. 152):
Welche Argumente können für diese unterschiedlichen Ansätze gemacht werden? Warum sollte man eine Präferenz haben?
Um einen weiteren Kandidaten einzuwerfen, kann die obige Tabelle in eine 2x2-Kontingenztabelle umgeschrieben werden, in der der exakte Fisher-Test (S. 5) verwendet werden kann
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
Der genaue Test nach diesem Faden sollte jedoch nur bei kleineren Stichproben verwendet werden (wie hoch ist der Cut-Off?)
Und dann gibt es gepaarte t- und z-Tests, f-Tests (und logistische Regression, aber ich möchte das vorerst auslassen) Argumentieren Sie die verschiedenen Methoden in diesem einfachen A / B-Testfall.
Anhand der Beispieldaten erhalte ich die folgenden p-Werte
https://vwo.com/ab-split-test-significance-calculator/ ergibt einen p-Wert von 0,001 (Z-Score)
http://www.evanmiller.org/ab-testing/chi-squared.html (mit Chi-Quadrat-Test) ergibt einen p-Wert von 0,00259
Und in R
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
ergibt sich ein p-Wert von 0,002785305
Was ich denke, sind alle ziemlich nah ...
Wie auch immer - ich hoffe nur auf eine gesunde Diskussion darüber, welche Ansätze für Online-Tests verwendet werden können, bei denen die Stichprobengröße normalerweise in der Größenordnung von Tausenden liegt und die Antwortquoten oft 10% oder weniger betragen. Mein Bauch sagt mir, dass ich Chi-Quadrat verwenden soll, aber ich möchte in der Lage sein, genau zu antworten, warum ich es anstelle der anderen Möglichkeiten auswähle, es zu tun.