Testen von Verteilungshypothesen - Was bringt es, wenn Sie Ihre Nullhypothese nicht akzeptieren können?

26

Verschiedene Hypothesentests, wie der GOF-Test, Kolmogorov-Smirnov, Anderson-Darling usw., folgen diesem Grundformat: $\chi^{2}$

: Die Daten folgen der angegebenen Verteilung. $H_0$

$H_1$ : Die Daten folgen nicht der angegebenen Verteilung.

Typischerweise bewertet man die Behauptung, dass einige gegebene Daten einer gegebenen Verteilung folgen, und wenn man ablehnt , sind die Daten auf einer gewissen Ebene nicht gut für die gegebene Verteilung geeignet . $H_0$ $\alpha$

Aber was ist, wenn wir nicht ablehnen ? Es wurde mir immer beigebracht, dass man nicht "akzeptieren" kann , weshalb wir keinen Beweis dafür , dass abgelehnt wird . Das heißt, es gibt keinen Hinweis darauf, dass wir ablehnen, dass die Daten der angegebenen Verteilung entsprechen. $H_0$ $H_0$ $H_0$

Meine Frage ist also, was bringt es, solche Tests durchzuführen, wenn wir nicht schließen können, ob die Daten einer bestimmten Verteilung folgen oder nicht?

— Klarinettist
quelle

1

Es ist sehr verlockend zu antworten: "Was ist der Sinn des Testens [im Allgemeinen], wenn man die Nullhypothese nicht akzeptieren kann?". In allen Fällen sind statistische Tests keine alleinige Entscheidungsgrundlage. Wir treffen vielmehr eine Entscheidung und verwenden Daten, um das Risiko / die Kosten von Fehlern des Typs I / II zu quantifizieren. Wenn wir lediglich die Qualität oder den Grad der Übereinstimmung mit nützlichen Grafiken, QQ-Plots und Vorhersagestatistiken zusammenfassen, würden wir in Bezug auf das Risiko, "die Null zu akzeptieren", angemessen beraten.

— AdamO

@AdamO Als ich das vor drei Jahren gefragt habe, hatte ich gerade einen Bachelor-Abschluss in Mathematik (Schwerpunkt Statistik) gemacht. Jetzt, wo ich auf halbem Weg durch ein MS-Statistikprogramm bin und professionelle Arbeit geleistet habe, verstehe ich das jetzt. Es ist wirklich bedauerlich, wie Statistiken in vielen Undergrad-Programmen gelehrt werden, aber ich schweife ab.

— Klarinettist

37

Allgemein gesagt (nicht nur in Bezug auf Passungstests, sondern auch in vielen anderen Situationen) können Sie nicht schlussfolgern, dass die Null richtig ist, da es Alternativen gibt, die bei jeder Stichprobengröße effektiv nicht von der Null zu unterscheiden sind.

Hier sind zwei Verteilungen, eine Standardnormale (grüne durchgezogene Linie) und eine ähnlich aussehende (90% Standardnormale und 10% standardisiertes Beta (2,2), gekennzeichnet mit einer roten gestrichelten Linie):

Bildbeschreibung hier eingeben

Der rote ist nicht normal. Bei haben wir nur eine geringe Chance, den Unterschied zu erkennen. Daher können wir nicht behaupten, dass Daten aus einer Normalverteilung stammen - was wäre, wenn sie stattdessen aus einer nicht normalen Verteilung wie der roten stammen? $n=100$

Kleinere Bruchteile standardisierter Betas mit gleichen, aber größeren Parametern wären viel schwerer als normal zu sehen.

Da reale Daten jedoch so gut wie nie aus einer einfachen Verteilung stammen, würden wir bei einem perfekten Orakel (oder einer praktisch unendlichen Stichprobengröße) grundsätzlich immer die Hypothese ablehnen, dass die Daten aus einer einfachen Verteilungsform stammten.

Wie George Box es berühmt ausdrückte : " Alle Modelle sind falsch, aber einige sind nützlich. "

Betrachten Sie zum Beispiel das Testen der Normalität. Es kann sein, dass die Daten tatsächlich von einer normalen Quelle stammen, aber werden sie jemals genau normal sein? Sie werden es wahrscheinlich nie sein.

Das Beste, auf das Sie bei dieser Form des Testens hoffen können, ist die von Ihnen beschriebene Situation. (Siehe zum Beispiel den Beitrag Ist das Testen der Normalität im Wesentlichen nutzlos?, Aber es gibt hier eine Reihe anderer Beiträge, die verwandte Punkte hervorheben.)

$F$

Betrachten Sie das Bild oben noch einmal. Die Rotverteilung ist nicht normal und bei einer sehr großen Stichprobe könnten wir einen Normaltest ablehnen, der auf einer Stichprobe davon basiert ... aber bei einer viel kleineren Stichprobengröße, Regressionen und zwei Stichproben-T-Tests (und vielen anderen Tests) außerdem) wird sich so gut verhalten, dass es sinnlos ist, sich auch nur ein wenig über diese Nicht-Normalität Gedanken zu machen.

$\mu=\mu_0$

Möglicherweise können Sie einige bestimmte Formen der Abweichung angeben und sich so etwas wie Äquivalenztests ansehen, aber es ist schwierig, die Übereinstimmung zu überprüfen, da es so viele Möglichkeiten gibt, wie eine Verteilung nah an einer hypothetischen Verteilung liegt, sich jedoch von dieser unterscheidet Formen von Unterschieden können unterschiedliche Auswirkungen auf die Analyse haben. Wenn es sich bei der Alternative um eine breitere Familie handelt, die den Sonderfall Null enthält, sind Äquivalenztests sinnvoller (z. B. Exponentialtests gegen Gamma) - und tatsächlich führt dies der Ansatz des "zweiseitigen Tests" durch, und das könnte der Fall sein eine Möglichkeit zu sein, "nah genug" zu formalisieren (oder es wäre, wenn das Gammamodell wahr wäre, aber tatsächlich wäre es so gut wie sicher, dass es von einem gewöhnlichen Anpassungstest abgelehnt wird,

Das Testen der Anpassungsgüte (und häufig auch das Testen von Hypothesen) eignet sich nur für einen relativ begrenzten Bereich von Situationen. Die Frage, die die Leute normalerweise beantworten möchten, ist nicht so präzise, aber etwas vager und schwieriger zu beantworten - aber wie John Tukey sagte: " Weitaus besser eine ungefähre Antwort auf die richtige Frage, die oft vage ist, als eine genaue Antwort auf die Frage falsche Frage, die immer präzisiert werden kann. "

Angemessene Ansätze zur Beantwortung der vage- ren Frage können Simulations- und Resampling-Untersuchungen umfassen, um die Sensitivität der gewünschten Analyse für die von Ihnen in Betracht gezogene Annahme im Vergleich zu anderen Situationen zu bewerten, die ebenfalls mit den verfügbaren Daten einigermaßen konsistent sind.

$\varepsilon$

— Glen_b - Setzen Sie Monica wieder ein
quelle

Glen, das ist eine großartige Antwort. Gibt es mehr Ressourcen zu "angemessenen Ansätzen zur Beantwortung der vage gestellten Frage"? Es wäre großartig, Beispiele zu sehen, in denen Menschen antworten: "Sind meine Daten für meine Zwecke nahe genug an Distribution X?" im Zusammenhang.

— Stumpy Joe Pete

2

@StumpyJoePete Es ist ein Beispiel für eine Antwort auf eine vage (aber etwas anders) Frage hier , wo Simulation bei etwa Richter verwendet wird , was es Art von Stichprobengröße angemessen sein könnte , einen t-Test mit schrägen (exponentiell, sagen wir) anzuwenden Daten. In einer anschließenden Frage stellte das OP weitere Informationen zur Stichprobe vor (es war diskret, und es stellte sich heraus, dass die Abweichung viel größer war, als "exponentiell" vermuten lässt), ... (ctd)

— Glen_b -Reinstate Monica,

2

(ctd) ... das Problem wurde erneut mithilfe von Simulationen genauer untersucht . Natürlich muss es in der Praxis mehr „Hin und Her“ geben, um sicherzustellen, dass es richtig auf die tatsächlichen Bedürfnisse der Person zugeschnitten ist, anstatt dass man es anhand der ursprünglichen Erklärung errät.

— Glen_b -Reinstate Monica

Vielen Dank! Das ist genau das, wonach ich gesucht habe.

— Stumpy Joe Pete

17

$P$ -Werte weniger nützlich als sie scheinen. Die Schätzung ist oftmals ein besserer Ansatz, selbst bei der Beurteilung der Anpassungsgüte. Man kann die Kolmogorov-Smirnov-Distanz als Maß nehmen. Es ist nur schwer, es ohne eine Fehlergrenze zu verwenden. Ein konservativer Ansatz würde die obere Konfidenzgrenze der KS-Distanz zur Leitmodellierung annehmen. Dies würde (zu Recht) zu einer Menge Unsicherheit führen, was zu dem Schluss führen könnte, dass die Wahl einer robusten Methode an erster Stelle bevorzugt wird. Vor diesem Hintergrund und zurück zum ursprünglichen Ziel, wenn man die empirische Verteilung mit mehr als beispielsweise 2 möglichen parametrischen Formen vergleicht, hat die wahre Varianz der endgültig angepassten Verteilung keine bessere Genauigkeit als die empirische kumulative Verteilungsfunktion. Wenn es also keine Subjekttheorie gibt, die die Auswahl der Distribution bestimmt,

— Frank Harrell
quelle

3

Ich kann den Grund nicht ergründen, warum dies abgelehnt wurde; Hier gibt es einige großartige Punkte. Es wäre hilfreich, wenn die abstimmende Person erklären würde, was sie als Problem ansieht. Vielleicht würden wir etwas lernen.

— Glen_b

9

Eine Ansicht, die meines Erachtens von den meisten Menschen geteilt wird, ist, dass das Testen von Hypothesen eine probabilistische Anpassung des Fälschungsprinzips ist .

Wenn eine Hypothese fortdauernde und ernsthafte Versuche, sie zu fälschen, überlebt, dann hat sie "ihre Richtigkeit bewiesen" und kann vorläufig akzeptiert werden, kann jedoch niemals endgültig festgestellt werden.

$H_0$ $H_0$ $H_0$

— Khashaa
quelle

2

Ich denke, dies ist ein perfektes Beispiel, um den Unterschied zwischen akademischer Arbeit und praktischer Entscheidungsfindung zu veranschaulichen. Im akademischen Umfeld (wo ich bin) können Sie nach Belieben argumentieren, solange dies von anderen als angemessen erachtet wird. Im Grunde genommen haben wir also endlose, manchmal kreisförmige, argige Schwierigkeiten miteinander. In diesem Sinne bietet dies den Menschen etwas, an dem sie arbeiten können.

Wenn Sie jedoch tatsächlich in der Lage sind, Entscheidungen zu treffen, lautet die Antwort definitiv Ja oder Nein. Unentschlossenheit schadet Ihrem Ruf als Entscheidungsträger. Natürlich beinhaltet die Auswahl nicht nur Statistiken, sondern manchmal auch ein Element des Glücksspiels und des Vertrauenssprungs. Zusammenfassend ist diese Art von Übung in gewissem Maße nützlich für die Entscheidungsfindung. Ganz anders sieht es jedoch aus, ob Sie sich bei Ihrer Entscheidung ausschließlich auf diesen Hypothesentest verlassen.

— LaTeXFan
quelle

2

Das ist meiner Meinung nach nicht korrekt. Das beste Buch, das ich gelesen habe, das erklärt, warum man bessere Entscheidungen trifft, indem man in jede Phase der Entscheidung immer Unsicherheit einbezieht, ist " The Signal and the Noise" von Nate Silver . Die erfolgreichsten Pokerspieler sind zum Beispiel diejenigen, die niemals glauben, dass die Wahrscheinlichkeit einer bestimmten Hand 0 oder 1 beträgt.

— Frank Harrell

1

@FrankHarrell Ich frage mich, wie Sie Fragen beantworten würden, z. B. ob Sie eine Straße bauen oder eine Aktie kaufen sollen. Es ist eine Ja oder Nein Frage. Das sind Fragen, die die Entscheidungsträger beantworten müssen.

— LaTeXFan

1

@FrankHarrell Sicherlich spielen Statistiken eine Rolle bei der Entscheidungsfindung. Unter dem Gesichtspunkt der Robustheit tun wir jedoch nur eine Annäherung an die Realität. Es gibt Unmengen von Dingen, die die Mathematik einfach nicht erklären konnte. Und hier kommen andere Mittel wie der Instinkt ins Spiel.

— LaTeXFan

1

P

$P$

1

@FrankHarrell Vielen Dank für Ihre Kommentare. Ich denke, Ihre Unterscheidung zwischen unwiderruflichen Entscheidungen und ansonsten ist ein guter Punkt. Im Wesentlichen geht es um die zeitliche Dimension des Problems. Innerhalb kurzer Zeit sind die meisten Entscheidungen unwiderruflich. Das ist passiert, wenn Leute vor Ort sind, um den Anruf zu tätigen. Wenn wir uns jedoch eine längerfristige Perspektive leisten können, haben Sie Recht - es ist besser, ein System zu haben, das auf veränderte Umstände reagieren kann. Trotzdem ist ein gewisser finanzieller oder physischer Schaden unvermeidbar.

— LaTeXFan

2

Der Punkt ist, dass Sie aus rein statistischer Sicht nicht akzeptieren können , aber in der Praxis. Wenn Sie beispielsweise das Risiko eines Portfolios mithilfe von Value-at-Risk- Maßnahmen oder ähnlichen Maßnahmen schätzen , ist die Verteilung der Portfoliorendite sehr wichtig. Dies liegt daran, dass das Risiko durch das Ende Ihrer Verteilung definiert wird.

In Schulbuchfällen wird häufig die Normalverteilung als Beispiel verwendet. Wenn Ihre Portfoliorenditen jedoch Fettschwänze aufweisen (was häufig der Fall ist), werden die Risiken durch die Normalverteilungsannäherung unterschätzt. Daher ist es wichtig, die Renditen zu untersuchen und zu entscheiden, ob Sie die normale Annäherung verwenden oder nicht. Beachten Sie, dass dies nicht unbedingt das Ausführen statistischer Tests bedeutet. Es kann sich um QQ-Diagramme oder andere Mittel handeln. Sie müssen jedoch irgendwann eine Entscheidung treffen, die auf der Analyse der Renditen und Ihrer Renditemodelle basiert, und entweder normal verwenden oder nicht.

Nicht ablehnen heißt also für alle praktischen Zwecke wirklich akzeptieren, wenn auch nicht im rein statistischen Sinne. Sie gehen zu den normalen und verwenden Sie es in Ihren Berechnungen zu akzeptieren, die täglich mit dem oberen Management angezeigt wird, auf Ihre Aufsichtsbehörden, Wirtschaftsprüfer etc. nicht ablehnen in diesem Fall hat Konsequenzen in jeder Hinsicht weitreichend, so dass es wie oder mächtiger als das alberne statistische Ergebnis.

— Aksakal
quelle

0

Kein Angeklagter vor Gericht ist jemals unschuldig. Sie sind entweder schuldig (lehnen die Nullhypothese der Unschuld ab) oder nicht schuldig (lehnen die Unschuldsvermutung nicht ab).

Das Fehlen von Beweisen ist kein Beweis für das Fehlen.

— BCLC
quelle

-1

Meine Frage ist also, was bringt es, solche Tests durchzuführen, wenn wir nicht schließen können, ob die Daten einer bestimmten Verteilung folgen oder nicht?

Wenn Sie eine alternative Distribution (oder eine Reihe von Distributionen) im Auge haben, mit der Sie vergleichen können, kann dies ein nützliches Werkzeug sein.

Ich würde sagen: Ich habe eine Reihe von Beobachtungen zur Hand, von denen ich denke, dass sie normal verteilt sind. (Ich denke schon, weil ich Beobachtungen eines ähnlichen Charakters gesehen habe, bei denen ich zufrieden war, folgte ich vernünftigerweise der normalen Kurve.) Ich denke auch, dass sie möglicherweise nicht der normalen Kurve folgen, sondern einer regulären nicht normalen Kurve. (Ich denke, das kann daran liegen, dass ich solche Daten gesehen habe, die nicht der normalen Kurve folgen, sondern zum Beispiel schief sind usw.) 3 Ich mache dann eine Untersuchung nach den folgenden Grundsätzen: Wenn die Beobachtungen Wie häufig käme ein solches Chi-Quadrat vor, wenn ich es aus einer Normalverteilung käme? Die Schlussfolgerung lautet: "Ganz selten - nur zweimal in hundert." Ich mache dann eine Anfrage, nicht angegeben und nicht berechnet, halte aber für die Vervollständigung eines gültigen Arguments unbedingt Folgendes für notwendig: Wenn die Verteilung nicht normal ist, würde diese Erfahrung, gemessen an einem Chi-Quadrat-Unterschied, ziemlich häufig auftreten. (Ich muss mir nur vorstellen, dass die nicht-normale Kurve den beobachteten Versatzcharakter der Verteilung hat.) Ich lehne daher die normale Hypothese ab, dass ich eine der alternativ in Betracht gezogenen Hypothesen akzeptiere, bei denen das erlebte Ereignis mehr wäre häufig. Ich sage, die Ablehnung der Nullhypothese gilt nur für die Bereitschaft, eine Alternative anzunehmen (diese Alternative ist nicht unbedingt in jeder Hinsicht genau definiert). ) Ich lehne daher die normale Hypothese ab, dass ich eine der alternativen Hypothesen akzeptiere, bei denen das erlebte Ereignis häufiger auftreten würde. Ich sage, die Ablehnung der Nullhypothese gilt nur für die Bereitschaft, eine Alternative anzunehmen (diese Alternative ist nicht unbedingt in jeder Hinsicht genau definiert). ) Ich lehne daher die normale Hypothese ab, dass ich eine der alternativen Hypothesen akzeptiere, bei denen das erlebte Ereignis häufiger auftreten würde. Ich sage, die Ablehnung der Nullhypothese gilt nur für die Bereitschaft, eine Alternative anzunehmen (diese Alternative ist nicht unbedingt in jeder Hinsicht genau definiert).

Nun würde die Argumentation, die ich beschrieben habe, im Gegensatz zu der, die ich als die üblichere beschrieben habe, erklären, warum meine Entscheidung im dritten und vierten Fall von der Routine abweicht.

In Bezug auf den dritten Fall bin ich nach dem Chi-Quadrat-Test zu dem Schluss gekommen, dass bei der Annahme, dass kein Unterschied zur Normalität besteht, eine Verteilung mit einem so großen Chi-Quadrat selten auftreten würde. Bisher sind wir in genau der gleichen Position wie zu diesem Zeitpunkt im zweiten Fall. Lassen Sie mich nun die Wahrscheinlichkeit untersuchen, dass diese Erfahrung eintreten würde, wenn die ursprüngliche Versorgung eine reguläre, nicht normale wäre. Würde diese Erfahrung häufiger auftreten? Es gibt keinen Grund, dies zu sagen. Die Verteilung ist perfekt symmetrisch, dh die Schiefe ist Null (es gab genau 50 Prozent der Fälle auf jeder Seite des Mittelwerts), und eine flüchtige Untersuchung der Unterschiede zu den erwarteten Häufigkeiten in den verschiedenen Klassen zeigt, dass sie nicht systematisch sind. tematisch, dh Die Plus- und Minusabweichungen wechseln sich in zufälliger Reihenfolge ab. Eine solche Verteilung ist bei keiner plausiblen nicht normalen Kurve häufig zu erwarten. Wir haben also keinen Grund, die Normalkurve abzulehnen.

Meiner Ansicht nach gibt es keinen triftigen Grund, die Nullhypothese abzulehnen, außer der Bereitschaft, eine Alternative zu vertreten.

Einige Interpretationsschwierigkeiten bei der Anwendung des Chi-Quadrat-Tests. Joseph Berkson. Zeitschrift der American Statistical Association. Vol. 33, Nr. 203 (Sep. 1938), S. 526-536

— Livid
quelle

1

Das Berkson-Zitat / -Papier erscheint mir relevant und angemessen. Es ist allgemein bekannt, dass bei einer ausreichend großen Stichprobe jede angenommene Verteilung verworfen wird, auch wenn dies nur auf einen Messfehler zurückzuführen ist. Sollten wir nicht versuchen, herauszufinden, was eine bessere Wahl wäre, wenn wir feststellen, dass die Daten unter einer angenommenen Verteilung unwahrscheinlich sind? Und wenn wir diese anderen Entscheidungen nicht rechtfertigen können, sollten wir bei Bedarf von einer möglichst einfachen Verteilung ausgehen? Kann jemand erklären, warum dies abgelehnt wurde?

— Livid