Allgemeine Richtlinien zur Ableitung eines statistischen Hypothesentests?

7

Im Allgemeinen kann der Prozess des Hypothesentests in vier Schritte unterteilt werden:

Formulieren Sie das praktische Problem anhand von Hypothesen.
Berechnen Sie eine Statistik , eine Funktion nur aus den Daten. Alle guten Teststatistiken sollten zwei Eigenschaften haben: (a) Sie sollten dazu neigen, sich anders zu verhalten, wenn wahr ist, als wenn wahr ist. und (b) ihre Wahrscheinlichkeitsverteilung sollte unter der Annahme berechenbar sein, dass wahr ist. $T$ $H_0$ $H_1$ $H_0$
Wählen Sie einen kritischen Bereich. Wir müssen in der Lage sein, über die Art der Werte von zu entscheiden, die am stärksten darauf hinweisen, dass wahr ist, anstatt dass wahr ist. $T$ $H_1$ $H_0$
Bestimmen Sie die Größe des kritischen Bereichs. Dazu muss angegeben werden, wie groß das Risiko ist, zu einer falschen Schlussfolgerung zu gelangen. Wir definieren das Signifikanzniveau oder die Größe des Tests, die wir mit , als das Risiko, das wir wenn wir ablehnen, wenn es tatsächlich wahr ist. $\alpha$ $H_0$

Es scheint , den kreativste Schritt, die, die wirklich einen spezifischen Test von anderen unterscheidet ist die Wahl der Statistik . Meine Frage lautet daher: Wie sind Autoren statistischer Hypothesentests auf ihre Statistiken gekommen? $T$

Ist es angesichts eines bestimmten Problems immer offensichtlich, wie die ideale Statistik aussehen sollte (wenn dies aus objektiven Gründen überhaupt definierbar ist)? Es scheint, dass diese beiden in Schritt 2 oben aufgeführten Anforderungen zwei allgemeine Anforderungen sind und viele verschiedene Statistiken erstellt werden könnten, um dieselben Hypothesen zu testen. Wäre es zum Beispiel nicht ein anderer alternativer Test als der T-Test gewesen, der auf Medianen oder anderen Statistiken basiert ...?

hypothesis-testing

— rmagno
quelle

Woher kommen die vier Schritte? Zitierst du etwas?

— Glen_b -State Monica

Ich würde sagen, dass üblicherweise Ihre Schritte 1 und 2 kombiniert werden (zumindest implizit). Das heißt, konzeptionell können Sie sich vorstellen, dass Sie zwei Datensätze haben: Einer wird vor der Formulierung der Hypothese gesammelt , und der andere wird dann gesammelt, um die Hypothese zu testen . (Die erste kann implizit sein, z. B. aus vorhandener Literatur / früheren Arbeiten.) Anschließend führen Sie eine explorative Datenanalyse durch und finden einige Statistiken, die mit einer vorläufigen Hypothese übereinstimmen (z. B. "Diese Untergruppen scheinen aus verschiedenen normalen Populationen zu stammen). Dies wird dann formalisiert.

— GeoMatt22

7

Wie sind Autoren statistischer Hypothesentests auf ihre Statistiken gekommen?

Abhängig von den Umständen gibt es zahlreiche Möglichkeiten, Teststatistiken zu identifizieren. Es ist wichtig zu versuchen, die Alternativen zu identifizieren, die Sie als wichtig erachten, und unter plausiblen Annahmen eine gewisse Macht gegen diese zu erlangen.

Wenn Sie beispielsweise eine Hypothese in Bezug auf Populationsmittelwerte haben (machen wir es einfach und betrachten einen Test mit einer Stichprobe), scheint eine Statistik, die auf dem Stichprobenmittelwert basiert, eine offensichtliche Wahl für eine Statistik zu sein, da sie tendenziell tendiert sich unter der Null und der Alternative anders zu verhalten. Wenn Sie jedoch (zum Beispiel) nach Verschiebungsalternativen für eine Laplace- / Doppelexponentialfamilie ( ) , ist etwas, das auf dem Stichprobenmedian basiert, die bessere Wahl für ein Test einer Verschiebung des Mittelwerts als etwas, das auf dem Stichprobenmittelwert basiert. $\text{DExp}(\mu,\tau)$

Wenn Sie ein bestimmtes parametrisches Modell haben (basierend auf einer bestimmten Verteilungsfamilie), ist es üblich, zumindest einen Likelihood-Ratio-Test in Betracht zu ziehen , da diese eine Reihe attraktiver Eigenschaften für große Stichproben aufweisen.

In vielen Situationen, in denen Sie versuchen, einen Test von Grund auf neu zu entwerfen, basiert eine Teststatistik auf einer zentralen Größe . Die Teststatistik in einem T-Test mit einer Stichprobe (wie auch in vielen anderen Tests, die Sie möglicherweise zuvor gesehen haben) ist eine entscheidende Größe.

Ist es angesichts eines bestimmten Problems immer offensichtlich, wie die ideale Statistik aussehen sollte (wenn dies aus objektiven Gründen überhaupt definierbar ist)?

Ganz und gar nicht. Betrachten Sie zum Beispiel einen Test der allgemeinen Normalität gegen eine ominibus-Alternative. Es gibt viele Möglichkeiten, die Abweichung von der Normalität zu messen (Dutzende solcher Tests wurden vorgeschlagen), und bei typischen Stichprobengrößen ist keine davon gegen jede Alternative am wirksamsten.

Bei dem Versuch, einen Test für eine solche Situation zu entwerfen, ist ein gewisses Maß an Kreativität erforderlich, um eine Wahl zu treffen, die eine gute Kraft gegen die Arten von Alternativen hat, an denen Sie am meisten interessiert sind.

Es scheint, dass diese beiden in Schritt 2 oben aufgeführten Anforderungen zu weit gefasst sind und viele verschiedene Statistiken erstellt werden könnten, um dieselben Hypothesen zu testen.

Tatsächlich. Wenn Sie eine parametrische Annahme treffen (nehmen Sie an, dass die Daten aus einer Verteilungsfamilie stammen und Ihre Hypothese sich dann auf einen oder mehrere Parameter bezieht), gibt es möglicherweise einen bestmöglichen Test für alle diese Situationen (insbesondere einen einheitlich leistungsstärksten) test), aber selbst dann, wenn Ihre parametrische Annahme eher einer groben Vermutung entspricht, kann der Wunsch nach einer gewissen Robustheit dieser Annahme die Dinge erheblich verändern.

Zum Beispiel (auch hier ist ein Test mit einer Stichprobe zur Standortverschiebung einfach), wenn ich eine Stichprobe aus einer normalen Population nehme, ist ein T-Test am besten. Aber nehmen wir an, ich denke, dass es möglicherweise nicht ganz normal ist und obendrein eine geringe Menge an Kontamination durch einen anderen Prozess mit einem mäßig schweren Schwanz vorliegt, dann etwas Robusteres (vielleicht sogar eine rangbasierte Alternative wie die signierte Rangtest) kann in einer Vielzahl solcher Situationen tendenziell eine bessere Leistung erbringen.

— Glen_b -State Monica
quelle

3

Eine nützliche Teststatistik ist eine, deren Verteilung vom interessierenden Parameter und keinem anderen Teil des statistischen Modells abhängt. Auf diese Weise kann seine Verteilung unter der Nullhypothese (dh wenn der interessierende Parameter den durch die Nullhypothese angegebenen Wert hat) vollständig spezifiziert werden. Eine ideale Teststatistik ergänzt die Eigenschaft, eine Verteilung zu haben, die stark vom interessierenden Parameter abhängt, so dass der resultierende Test eine gute Leistung aufweist.

Betrachten Sie den T-Test des Schülers. Es wurde als Signifikanztest (siehe Was ist der Unterschied zwischen "Testen der Hypothese" und "Testen der Signifikanz"? ) Für Mittelwerte mit kleinen Stichproben entwickelt. Die Schwierigkeit, mit der Gossett konfrontiert war, bestand darin, dass die Verteilung des Mittelwerts einer kleinen Stichprobe aus einer normalen Population von dem interessierenden Parameter , aber auch von einem 'Störparameter', der Standardabweichung der Population abhängt . Der kleine Stichprobenzustand bedeutete, dass die von der Stichprobe geschätzte Standardabweichung keine adäquate Schätzung von . Um das Problem zu lösen, entwickelte Gossett die Teststatistik $\mu$ $\sigma$ $s$ $\sigma$ $t=\sqrt{n}\times \bar{x}/s$ die nur von den Daten abhängig ist und eine definierte Verteilung für eine gegebene Stichprobengröße hat, . Wichtig ist, dass diese Verteilung von völlig unberührt bleibt . (Eigentlich war diese Form der Teststatistik eine Überarbeitung von Fisher, wenn ich mich richtig erinnere.) $n$ $\sigma$

Heutzutage ist es nicht immer leicht , das Genie von Gossett-Lösung , um zu sehen, t zumal seine t-Statistik sieht fast identisch mit der z-Statistik für eine Normalverteilung mit bekannter Varianz (Ersatz nur für ). Der schwierige Teil bestand darin, die Art der Verteilung der Teststatistik zu bestimmen. Der Beweis, dass Gossetts Verteilung korrekt war, kam erst in einem späteren Artikel von Fisher. $\sigma$ $s$

In vielen Fällen werden statistische Tests erstellt, indem Teststatistiken gefunden werden, die eine Verteilung annehmen, von der nachgewiesen werden kann, dass sie bekannte Verteilungen unter akzeptablen Annahmen annähern. Viele Tests basieren beispielsweise auf Annäherungen an die Chi-Quadrat-Verteilung.

— Michael Lew
quelle