Das Testen von Hypothesen ähnelt einem Klassifizierungsproblem. Nehmen wir also an, wir haben zwei mögliche Bezeichnungen für eine Beobachtung (Subjekt) - Schuldig gegen Nichtschuldig. Sei Nichtschuld die Nullhypothese. Wenn wir das Problem unter dem Gesichtspunkt der Klassifizierung betrachten würden, würden wir einen Klassifizierer trainieren, der die Wahrscheinlichkeit vorhersagt, dass das Subjekt in jede der beiden Klassen gehört, wenn man die Daten berücksichtigt. Wir würden dann die Klasse mit der höchsten Wahrscheinlichkeit auswählen. In diesem Fall wäre eine Wahrscheinlichkeit von 0,5 die natürliche Schwelle. Wir können den Schwellenwert variieren, falls wir falsch positiven und falsch negativen Fehlern unterschiedliche Kosten zugewiesen haben. Aber selten würden wir so extrem vorgehen, als den Schwellenwert auf 0,05 zu setzen, dh das Subjekt nur dann der Klasse "Schuldig" zuzuweisen, wenn die Wahrscheinlichkeit 0,95 oder höher ist. Aber wenn ich es gut verstehe, Dies ist das, was wir als Standardpraxis tun, wenn wir dasselbe Problem als ein Problem des Hypothesentests betrachten. In diesem letzteren Fall werden wir das Label "Non-Guilty" - gleichbedeutend mit der Zuweisung des Labels "Guilty" - nur dann nicht zuweisen, wenn die Wahrscheinlichkeit, "Non-Guilty" zu sein, weniger als 5% beträgt. Und vielleicht macht dies Sinn, wenn wir wirklich vermeiden wollen, unschuldige Menschen zu verurteilen. Aber warum sollte diese Regel in allen Domänen und in allen Fällen gelten?
Die Entscheidung, welche Hypothese angenommen werden soll, entspricht der Definition eines Schätzers der Wahrheit anhand der Daten. Bei der Maximum-Likelihood-Schätzung akzeptieren wir die Hypothese, die angesichts der Daten wahrscheinlicher ist - nicht unbedingt, wenn auch überwiegend wahrscheinlicher. Siehe die Grafik unten:
Unter Verwendung eines Maximum-Likelihood-Ansatzes würden wir in diesem Beispiel die alternative Hypothese bevorzugen, wenn der Wert des Prädiktors über 3 liegt, z. B. 4, obwohl die Wahrscheinlichkeit, dass dieser Wert aus der Nullhypothese abgeleitet wurde, größer als 0,05 gewesen wäre.
Und während das Beispiel, mit dem ich den Beitrag begonnen habe, vielleicht emotional aufgeladen ist, könnten wir uns andere Fälle vorstellen, z. B. eine technische Verbesserung. Warum sollten wir dem Status Quo einen solchen Vorteil verschaffen, wenn die Daten uns sagen, dass die Wahrscheinlichkeit, dass die neue Lösung eine Verbesserung darstellt, größer ist als die Wahrscheinlichkeit, dass dies nicht der Fall ist?