Ich habe vor Jahren Statistik studiert und alles vergessen, so dass dies als allgemeine konzeptionelle Fragen erscheinen mag, aber hier ist mein Problem.
Ich arbeite als UX Designer für eine E-Commerce-Website. Wir haben ein vor Jahren gebautes A / B-Test-Framework, an dem ich anfange zu zweifeln.
Die Metrik, über die wir alle unsere Entscheidungen treffen, wird als Conversion bezeichnet und basiert auf dem Prozentsatz der Benutzer, die die Website besuchen und am Ende etwas kaufen.
Daher möchten wir testen, wie Sie die Farbe der Schaltfläche "Kaufen" von "Grün" in "Blau" ändern.
Die Kontrolle ist das, was wir bereits haben, der grüne Knopf, wo wir wissen, wie hoch unsere durchschnittliche Conversion-Rate ist. Das Experiment ersetzt die grüne Taste durch die blaue Taste.
Wir sind uns einig, dass 95% Signifikanz das Vertrauensniveau ist, mit dem wir zufrieden sind, und wir schalten das Experiment ein und lassen es laufen.
Wenn Benutzer die Site besuchen, besteht hinter den Kulissen eine 50/50-Chance, dass sie an die Kontrollversion (grüne Taste) im Vergleich zur Testversion (blaue Taste) gesendet werden.
Wenn ich mir den Versuch nach 7 Tagen ansehe, sehe ich eine Steigerung des Umsatzes um 10,2% zugunsten des Versuchs bei einer Stichprobengröße von 3000 (1500 zur Kontrolle, 1500 zum Versuch) und einer statistischen Signifikanz von 99,2%. Hervorragend finde ich.
Das Experiment wird fortgesetzt, die Stichprobengröße wächst und dann sehe ich eine Steigerung der Konversion um + 9% mit einer Signifikanz von 98,1%. Okay, lassen Sie das Experiment länger laufen und jetzt zeigt das Experiment nur noch eine Steigerung der Conversion um 5% mit einer statistischen Signifikanz von nur 92%. Der Rahmen sagt mir, dass ich 4600 weitere Proben benötige, bevor ich eine Signifikanz von 95% erreiche.
Ab wann ist das Experiment dann schlüssig?
Wenn ich an einen klinischen Studienprozess denke, bei dem Sie sich im Voraus auf die Probengröße einigen und nach Abschluss des Experiments eine 10% ige Verbesserung der Messgröße auf 99% ige Signifikanz feststellen, wird die Entscheidung getroffen, dass das Medikament dann auf den Markt kommt. Aber wenn sie das Experiment an 4000 Personen durchgeführt hätten und eine 5% ige Verbesserung irgendeiner Metrik auf nur 92% signifikant sehen würden, dann würde dieses Medikament nicht auf den Markt kommen dürfen.
Sollten wir uns im Voraus auf einen Stichprobenumfang einigen und ihn beenden, sobald dieser Stichprobenumfang erreicht ist, und mit den Ergebnissen zufrieden sein, wenn die Signifikanz zum Zeitpunkt des Abschaltens des Experiments 99% betrug?