Ich habe Daten über eine Reihe von Gewinn- und Verlustwetten über 5 Wettrunden mit Abrieb nach jeder Runde. Ich verwende einen Entscheidungsbaum wie den folgenden, um die Daten anzuzeigen.
Die Knoten am oberen Rand des Baums sind diejenigen, die gewinnende Wetten haben, und diejenigen am unteren Rand des Baums haben Läufe, bei denen Wetten verloren gehen. Ich möchte (a) Abrieb an jedem Knoten (b) Änderungen der mittleren Einsatzgrößen an jedem Knoten betrachten. Ich betrachte die Abnutzungsrate an jedem Knoten des vorherigen Knotens und die Überlebensrate (unter Verwendung der erwarteten Anzahl von Personen an jedem Knoten, wenn die Wahrscheinlichkeit 50% beträgt). Wenn zum Beispiel die Wahrscheinlichkeit an jedem Knoten 50% beträgt, sollten sich von den 1000, die begonnen haben, ungefähr 500 Personen in jedem der zweiten Knoten W und L befinden. Die Hypothese lautet (a), dass die Abnutzungsrate nach dem Verlust höher ist Wetten (b) bedeutet, dass die Einsatzgröße nach Verlierern reduziert und nach Gewinnern erhöht wird.
Ich möchte dies zunächst nur in einer sehr einfachen univariaten Umgebung tun. Wie kann ich einen T-Test durchführen, um zu zeigen, dass die Änderung der mittleren Einsatzgröße von Knoten WW zu Knoten WWW statistisch signifikant ist, wenn 50 Personen ausgestiegen sind? Ich bin mir nicht sicher, ob dies der richtige Ansatz ist: Jede nachfolgende Wette ist unabhängig, aber die Leute fallen nach den Verlierern aus, sodass die Stichprobe nicht übereinstimmt. Wenn es nur ein Fall wäre, in dem dieselbe Klasse nacheinander eine Reihe von Prüfungen ablegt, ohne dass jemand abbricht, würde ich verstehen, wie man den entsprechenden T-Test durchführt, aber ich denke, das ist ein bisschen anders.
Wie kann ich das machen? Wie könnte ich die oberen 5% und unteren 5% herausnehmen, wenn die Ergebnisse von einer kleinen Anzahl von Kunden verzerrt werden? Entfernen Sie einfach die Kunden mit der höchsten kumulierten Einsatzgröße von Wette 1 - 3?
Ich habe die Daten, aus denen die Figur generiert wurde, also habe ich den Mittelwert, den Standardfehler, den Standardfehler usw. an jedem Knoten.