Was wir P-Hacking nennen, ist die mehrfache Anwendung eines Signifikanztests, bei dem nur die Signifikanzergebnisse gemeldet werden. Ob dies gut oder schlecht ist, hängt von der jeweiligen Situation ab.
Um dies zu erklären, lassen Sie uns über wahre Effekte in Bayes'schen Begriffen nachdenken, anstatt über Nullhypothesen und alternative Hypothesen. Solange wir glauben, dass unsere interessierenden Effekte von einer kontinuierlichen Verteilung herrühren, wissen wir, dass die Nullhypothese falsch ist. Bei einem zweiseitigen Test wissen wir jedoch nicht, ob er positiv oder negativ ist. Unter diesem Gesichtspunkt können wir uns p-Werte für zweiseitige Tests als Maß dafür vorstellen, wie stark der Beweis dafür ist, dass unsere Schätzung die richtige Richtung hat (dh positive oder negative Wirkung).
Nach dieser Interpretation kann jeder Signifikanztest drei mögliche Ergebnisse haben: Wir sehen genügend Beweise, um die Richtung des Effekts zu bestimmen, und wir haben Recht, wir sehen genügend Beweise, um die Richtung des Effekts zu bestimmen, aber wir liegen falsch oder wir tun es nicht Sehen Sie genügend Beweise, um die Richtung des Effekts abzuschließen. Beachten Sie, dass unter der Bedingung, dass Sie genügend Beweise haben (dh ), die Wahrscheinlichkeit, dass die Richtung korrekt ist, größer sein sollte als die Wahrscheinlichkeit, dass sie falsch ist (es sei denn, Sie haben einen wirklich verrückten, wirklich schlechten Test) Die wahre Effektgröße nähert sich Null, die bedingte Wahrscheinlichkeit, die Richtung zu korrigieren, nähert sich 0,5, wenn genügend Beweise vorliegen.p<α
Überlegen Sie nun, was passiert, wenn Sie immer wieder zurückkehren, um mehr Daten zu erhalten. Jedes Mal, wenn Sie mehr Daten erhalten, steigt Ihre Wahrscheinlichkeit, die richtige Richtung zu finden, nur, wenn genügend Daten vorliegen. In diesem Szenario sollten wir also erkennen, dass wir durch das Abrufen weiterer Daten zwar die Wahrscheinlichkeit eines Fehlers vom Typ I erhöhen, aber auch die Wahrscheinlichkeit verringern, fälschlicherweise auf die falsche Richtung zu schließen.
Nehmen Sie dies im Gegensatz zu dem eher typischen Missbrauch von P-Hacking; Wir testen Hunderte von Effektgrößen, die mit hoher Wahrscheinlichkeit sehr klein sind, und geben nur die signifikanten an. Beachten Sie, dass in diesem Fall, wenn alle Effekte gering sind, eine Wahrscheinlichkeit von fast 50% besteht, dass die Richtung falsch ist, wenn wir eine Signifikanz angeben.
Natürlich sollten die aus dieser Datenverdoppelung resultierenden p-Werte immer noch ein Salzkorn enthalten. Während Sie im Allgemeinen kein Problem mit Personen haben sollten, die mehr Daten sammeln, um sicherer über die Effektgröße zu sein, könnte dies auf andere Weise missbraucht werden. Ein cleverer PI könnte beispielsweise erkennen, dass er nicht alle 100 Datenpunkte auf einmal sammelt, sondern eine Menge Geld spart und die Leistung erhöht, indem er zuerst 50 Datenpunkte sammelt, die Daten analysiert und dann die nächsten 50 sammelt, wenn sie nicht signifikant sind . In diesem Szenario erhöhen sie die Wahrscheinlichkeit, dass die Richtung des Effekts falsch ist, abhängig von der Angabe der Signifikanz, da bei 50 Datenpunkten die Wahrscheinlichkeit größer ist, dass die Richtung des Effekts falsch ist als bei 100 Datenpunkten.
Und schließlich sollten Sie überlegen, welche Auswirkungen es hat, keine weiteren Daten zu erhalten, wenn ein unbedeutendes Ergebnis vorliegt. Das würde bedeuten, niemals mehr Informationen zum Thema zu sammeln, was die Wissenschaft nicht wirklich vorantreibt, oder? Eine unterversorgte Studie würde ein ganzes Feld töten.