Warum verwenden wir einen einseitigen F-Test zur Varianzanalyse (ANOVA)?


13

Können Sie den Grund für die Verwendung eines einseitigen Tests bei der Varianzanalyse angeben?

Warum verwenden wir einen One-Tail-Test - den F-Test - in der ANOVA?


2
Einige Fragen als Leitfaden für Ihr Denken ... Was bedeutet eine sehr negative Statistik? Ist eine negative F-Statistik möglich? Was bedeutet eine sehr niedrige F-Statistik? Was bedeutet eine hohe F-Statistik?
Russellpierce

Warum haben Sie den Eindruck, dass ein einseitiger Test ein F-Test sein muss? Um Ihre Frage zu beantworten: Mit dem F-Test können Sie eine Hypothese mit mehr als einer linearen Kombination von Parametern testen.
IMA

1
Möchten Sie wissen, warum man einen einseitigen Test anstelle eines zweiseitigen Tests verwenden würde?
Jens Kouros

@tree was ist eine glaubwürdige oder offizielle Quelle für deine Zwecke?
Glen_b -Reinstate Monica

1
@tree beachten Sie, dass Cynderella Frage ist hier nicht um einen Test der Varianzen, aber speziell ein F-Test von ANOVA - das ist ein Test ist ausschließlich für die Gleichstellung von Mitteln . Wenn Sie an Tests zur Prüfung der Varianzgleichheit interessiert sind, wurde dies in vielen anderen Fragen auf dieser Website erörtert. (Ja, für den
Varianztest interessieren

Antworten:


17

F-Tests werden am häufigsten für zwei Zwecke verwendet:

  1. in der ANOVA zum Testen der Mittelgleichheit (und verschiedener ähnlicher Analysen); und

  2. bei der Prüfung der Varianzgleichheit

Betrachten wir sie nacheinander:

1) F-Tests in ANOVA (und in ähnlicher Weise die üblichen Arten von Chi-Quadrat-Tests für Zähldaten) werden so konstruiert, dass die Teststatistik tendenziell umso größer ist, je mehr die Daten mit der Alternativhypothese übereinstimmen, während die Stichprobenanordnungen Daten, die am besten mit der Null übereinstimmen, entsprechen den kleinsten Werten der Teststatistik.

Betrachten Sie drei Stichproben (Größe 10, mit gleicher Stichprobenvarianz) und ordnen Sie sie mit gleichen Stichprobenmitteln an und bewegen Sie dann ihre Mittelwerte in verschiedenen Mustern. Wenn die Abweichung im Abtastmittel von Null zunimmt, wird die F-Statistik größer:

Anordnung von 3 Stichproben und zugehöriger F-Statistik

Die schwarzen Linien () sind die Datenwerte. Die dicken roten Linien ( | ) sind die Gruppenmittelwerte.||

Wenn die Nullhypothese (Gleichheit der Populationsmittelwerte) wahr wäre, würden Sie eine gewisse Variation der Stichprobenmittelwerte erwarten und in der Regel F-Verhältnisse um 1 erwarten. Kleinere F-Statistiken ergeben sich aus Stichproben, die näher beieinander liegen als normalerweise Erwarten Sie ... Sie werden also nicht zu dem Schluss kommen, dass die Bevölkerungsmittel unterschiedlich sind.

Das heißt, für ANOVA lehnen Sie die Hypothese der Mittelwertgleichheit ab, wenn Sie ungewöhnlich große F-Werte erhalten, und Sie lehnen die Hypothese der Mittelwertgleichheit nicht ab, wenn Sie ungewöhnlich kleine Werte erhalten (dies könnte darauf hindeuten) etwas , aber nicht dass die Bevölkerungsmittel unterschiedlich sind).

Hier ist eine Illustration, die Ihnen vielleicht hilft, zu sehen, dass wir nur ablehnen möchten, wenn F in seinem oberen Ende ist:

Beschreibung von F für ANOVA, ablehnen, wenn sich die F-Statistik im oberen Ende befindet

2) F-Tests auf Varianzgleichheit * (basierend auf Varianzverhältnissen). Hier ist das Verhältnis zweier Stichprobenvarianzschätzungen groß, wenn die Stichprobenvarianz des Zählers viel größer als die Varianz im Nenner ist, und das Verhältnis ist klein, wenn die Stichprobenvarianz des Nenners viel größer als die Varianz im Zähler ist.

Das heißt, um zu testen, ob sich das Verhältnis der Populationsvarianzen von 1 unterscheidet, möchten Sie die Null für große und kleine Werte von F ablehnen.

* (Abgesehen von der Frage der hohen Empfindlichkeit für die Verteilungsannahme dieses Tests (es gibt bessere Alternativen) und der Frage, ob Ihre beste Strategie wahrscheinlich keine ist, wenn Sie an der Eignung von ANOVA-Annahmen mit gleicher Varianz interessiert sind.) formale Prüfung.)


2
@TaylerJones Levenes Test ist etwas robuster. Browne-Forsythe ist robuster (verliert aber etwas an Kraft). Fligner-Killeen wieder mehr. In einigen Jahrzehnten habe ich Levene oder Browne-Forsythe höchstens zweimal verwendet. (Wenn es wieder auftauchte, würde mir wahrscheinlich etwas wie Browne-Forsythe passen, aber ich habe im Allgemeinen keine Situationen, in denen es keinen Sinn macht, mehrere Gruppenvarianzen auf Gleichheit zu testen.)
Glen_b -Reinstate Monica

2
F=MSTREEINTMENTMSERRÖR wird in der Nähe sein 1 , während, wenn alternative Hypothese wahr ist, die F-Verhältnis wird größer sein. Aber wie impliziert es "das ist der Grund für die Verwendung von One-Tail-Test in ANOVA?"
Zeit

2
Es hört sich so an, als ob Sie etwas über Hypothesentests im Allgemeinen nicht verstehen, aber es ist schwierig, genau zu wissen, wo. Sie sagen, Sie verstehen, dass Sie, wenn Sie ein großes F erhalten, dieses ablehnen möchten, und wenn Sie ein kleines F erhalten, dieses nicht ablehnen möchten. Die großen Werte von F sind jene Werte im oberen Schwanz, während kleine Werte von F jene Werte im unteren Schwanz sind. Sie möchten nur ablehnen, wenn die Werte groß sind ... dh im oberen Schwanz, aber nicht im unteren Schwanz. Wie kannst du nicht sehen, dass das eins ist? Ich werde eine weitere Handlung hinzufügen, die helfen könnte.
Glen_b

1
@jeramy Meine Kommentare beziehen sich auf Tests, die sich auf Varianzverhältnisse stützen (insbesondere habe ich angegeben: " Hier wird das Verhältnis zweier Stichprobenvarianzschätzungen ..."). Bei den Tests, auf die Sie sich beziehen, wird nach Standortunterschieden in absoluten Residuen aus einem Standortmaß gesucht, um Unterschiede in der Streuung zu erkennen. Sie arbeiten natürlich so, wie Tests auf Standortunterschiede funktionieren. Da ich einen Fall zu zeigen versuchte , wo Sie würde am unteren Ende der F aussehen, die Brown-Forsythe (& einige andere Tests , dass sucht Standort Unterschiede in einem gewissen Maß an Abweichung zu Spread - Differenzen infer) würde keine Hilfe sein
Glen_b - Setzen Sie Monica

1
@ Keramik Ich habe ein paar Worte hinzugefügt, um es deutlicher zu machen. Sie können gerne , dass , obwohl Brown-Forsythe, Levene und so weiter zu beachten Verwendung F-Tabellen, die Verteilung der Teststatistiken sind nicht wirklich F-verteilt sind , auch unter den Annahmen des Tests.
Glen_b

2

Es muss verstanden werden, dass das Ziel der ANOVA darin besteht, zu prüfen, ob es eine Ungleichheit der Mittelwerte gibt. Dies impliziert, dass wir uns mit großen Abweichungen zwischen Stichproben befassen (& bedeutet also, dass Abweichungen aus den Mitteln berechnet werden), verglichen mit Abweichungen innerhalb von Stichproben (erneut berechnet aus dem Mittelwert der einzelnen Stichproben). Wenn die Abweichungen zwischen den Abtastwerten gering sind (was dazu führt, dass der F-Wert auf der linken Seite liegt), spielt dies keine Rolle, da dieser Unterschied unerheblich ist. Die Abweichungen zwischen den Stichproben sind von Bedeutung, wenn sie signifikant höher sind als die Abweichungen innerhalb der Stichproben. In diesem Fall wäre der F-Wert größer als 1 und daher im rechten Schwanz.

Es bleibt nur die Frage, warum das gesamte Signifikanzniveau in den richtigen Bereich gestellt wird und die Antwort ist wieder ähnlich. Die Ablehnung erfolgt nur, wenn sich das F-Verhältnis auf der rechten Seite befindet und niemals, wenn sich das F-Verhältnis auf der linken Seite befindet. Das Signifikanzniveau ist das Maß für den Fehler aufgrund statistischer Einschränkungen. Da die Ablehnung nur auf der rechten Seite erfolgt, bleibt der gesamte Signifikanzgrad (Fehlerrisiko von Fehlschlüssen) auf der rechten Seite. `


0

Der erwartete Wert für das mittlere Quadrat (Mean Square, MS) innerhalb der Behandlungen ist die Populationsvarianz, während der erwartete Wert für das MS zwischen den Behandlungen die Populationsvarianz zuzüglich der Behandlungsvarianz ist. Somit ist das Verhältnis von F = MS zwischen / MS innerhalb immer größer als 1 und niemals kleiner als 1.

Da die Genauigkeit eines 1-Schwanz-Tests besser ist als bei einem 2-Schwanz-Test, bevorzugen wir den 1-Schwanz-Test.


Ich glaube nicht, dass die Behauptung im letzten Satz Ihres ersten Absatzes richtig ist ... E (Zähler)> E (Nenner) bedeutet nicht, dass Zähler> Nenner.
Glen_b

Abgesehen von Glen_bs Argument bin ich mir nicht sicher, "da die Präzision eines 1-Schwanz-Tests besser ist als eines 2-Schwanz-Tests, bevorzugen wir die Verwendung des 1-Schwanz-Tests." Können Sie erklären, was Sie damit meinen? Wenn ich über Präzision spreche, verpasse ich den Punkt.
Silverfish

Präzision entspricht dem halben Konfidenzintervall. Für den gleichen F-stat wird bei einem 1-Tail-Test die Nullhypothese mit einem kleineren p-Wert (tatsächlich zur Hälfte) verworfen. Umgekehrt kann ein 1-Tail-Test die Nullhypothese mit kleineren Werten des F-Stat ablehnen. Dies impliziert, dass ein 1-Schwanz-Test einen Behandlungseffekt mit weniger Proben oder mit einer häufigeren Ursachenvarianz in der Probe nachweisen kann. Dies macht den 1-Schwanz-Test wünschenswerter, wenn man nach einem Effekt sucht.
Jeff Cotter

Ja, eine berechnete F-Statistik kann kleiner als 1,0 sein. Die Schlussfolgerung wäre jedoch, die Nullhypothese "keine Behandlungseffekte" nicht abzulehnen. Daher gibt es keinen kritischen Bereich im unteren Schwanz. Daher ist der F-Test ein oberer einseitiger Test. In ANOVA basiert das logische Argument auf den erwarteten Werten für MS_treat und MS_error. Unter der Hypothese "kein Behandlungseffekt" ist H0: E (MS_treat) = E (MS_error) = Populationsvarianz. Jeder signifikante Behandlungseffekt führt zu HA: E (MS_treat)> E (MS_error). (Geben Sie einen beliebigen Montgomery-Text für ANOVA ein.) Somit impliziert HA einen einseitigen Test.
Jeff Cotter
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.