Was ist mit der statistischen Signifikanz in der Regression passiert, wenn die Datengröße gigantisch ist?

13

Ich habe diese Frage in Bezug auf eine groß angelegte Regression ( Link ) gelesen , in der whuber einen interessanten Punkt wie folgt hervorhob :

"Nahezu jeder statistische Test, den Sie durchführen, ist so leistungsfähig, dass Sie mit ziemlicher Sicherheit einen" signifikanten "Effekt feststellen können. Sie müssen sich viel mehr auf statistische Wichtigkeit konzentrieren, z.

--- whuber

Ich habe mich gefragt, ob dies bewiesen werden kann oder ob es sich in der Praxis nur um einige häufige Phänomene handelt.

Jeder Hinweis auf einen Beweis / eine Diskussion / eine Simulation wäre wirklich hilfreich.

regression statistical-significance

— Bayesric
quelle

1

Effektgröße ist wichtig. (+1 zu Glen_bs Antwort). Um ein kurzes Beispiel zu geben: Wenn wir fettleibig wären, würden wir unsere bestehende Diät nicht auf eine neue, teurere Diät umstellen, wenn dies nach einem Monat zu einem Gewichtsverlust von 0,05 kg führen würde, selbst wenn der

p

$p$ Wert

\leq 0.0000000001

$\leq 0.0000000001$ . Wir wären immer noch fettleibig, nur ärmer. Nach allem, was wir wissen, könnte eine so geringe Gewichtsreduktion nur auf die Gesundheitsklinik zurückzuführen sein, dass die Aufzeichnungen vom Boden eines Gebäudes ohne Aufzug in den vierten Stock desselben Gebäudes verschoben wurden. (Schöne Frage + 1)

— usεr11852 sagt Reinstate Monic

10

Es ist ziemlich allgemein.

Stellen Sie sich vor, es gibt einen kleinen Effekt, der nicht Null ist (dh eine Abweichung von der Null, die der Test erfassen kann).

Bei kleinen Stichproben liegt die Wahrscheinlichkeit der Zurückweisung sehr nahe an der Fehlerrate des Typs I (Rauschen dominiert den kleinen Effekt).

Mit zunehmender Stichprobengröße sollte sich der geschätzte Effekt diesem Bevölkerungseffekt annähern, während gleichzeitig die Unsicherheit des geschätzten Effekts abnimmt (normalerweise als ), bis sich die Wahrscheinlichkeit, dass die Nullsituation nahe genug an dem geschätzten Effekt liegt, der in einer zufällig ausgewählten Stichprobe aus der Grundgesamtheit noch plausibel ist, effektiv auf Null verringert. $\sqrt{n}$

Das heißt, mit Punktnullen wird schließlich die Zurückweisung sicher, weil in fast allen realen Situationen im Grunde immer eine gewisse Abweichung von der Null vorhanden ist.

— Glen_b - Setzen Sie Monica wieder ein
quelle

"... weil es in fast allen realen Situationen grundsätzlich immer eine gewisse Abweichung von der Null gibt." Es ist also da und man kann es sogar sehen. Das wäre ein ziemlich schönes Objekt oder nicht?

— Trilarion

"Null" bezieht sich hier auf die Nullhypothese, dass der Koeffizient gleich Null ist?

— Arash Howaida

Ich denke, Glen_bs Antwort ist allgemein und auf alle Hypothesentests mit einem Nullpunkt anwendbar. Ja, im Kontext der Regression bedeutet Null, dass der Koeffizient gleich Null ist. Mein eigenes Verständnis ...

— Bayesric

4

Dies ist kein Beweis, aber es ist nicht schwer, den Einfluss der Stichprobengröße in der Praxis zu zeigen. Ich möchte ein einfaches Beispiel von Wilcox (2009) mit geringfügigen Änderungen verwenden:

Stellen Sie sich für ein allgemeines Maß an Angst vor, dass ein Forscher behauptet, dass die Bevölkerung der College-Studenten einen Mittelwert von mindestens 50 hat. Zur Überprüfung dieser Behauptung nehmen wir an, dass zehn College-Studenten nach dem Zufallsprinzip befragt werden, um testen mit . (Wilcox, 2009: 143) $H_0: \mu \geq 50$ $\alpha = .05$

Wir können t-test für diese Analyse verwenden:

T = \frac{\bar{X} - μ_{o}}{s / \sqrt{n}}

$T = \frac{\bar X - \mu_o}{s/\sqrt{n}}$

Unter der Annahme, dass der Stichprobenmittelwert ( ) 45 beträgt und die Stichprobenstandardabweichung ( ) 11 beträgt, $\bar X$ $s$

T = \frac{45 - 50}{11 / \sqrt{10}} = - 1.44.

$T = \frac{45-50}{11/\sqrt{10}}=-1.44.$

Wenn Sie an einem Tisch schauen enthält kritische Werte des Student- - Verteilung mit Freiheitsgraden $t$ $ν$ , werden Sie sehen , dass die für , . Mit können wir die Nullhypothese nicht ablehnen. Nehmen wir nun an, wir haben den gleichen Stichprobenmittelwert und die gleiche Standardabweichung, aber stattdessen 100 Beobachtungen: $v = 10 -1$ $P(T \leq - 1.83)= .05$ $T=-1.44$

T = \frac{45 - 50}{11 / \sqrt{100}} = - 4.55

$T = \frac{45-50}{11/\sqrt{100}}= -4.55$

Für , können wir die Nullhypothese verwerfen. Wenn Sie alles andere konstant halten und die Stichprobengröße erhöhen, verringert sich der Nenner, und es ist wahrscheinlicher, dass sich Werte im kritischen Bereich (Ablehnungsbereich) der Stichprobenverteilung befinden. Beachten Sie, dass $v = 100 - 1$ $P(T \leq -1.66) = .05$ ist eine Schätzung des Standardfehlers des Mittelwerts. So können Sie sehenwie eine ähnliche Interpretation gilt, beispielsweise die Hypothesentests auf den Regressionskoeffizienten inlinearen Regression erhalten, wobei $s/\sqrt{n}$ . $T = \frac{\hat\beta_j-\beta_j^{(0)}}{se(\hat\beta_j)}$

Wilcox, RR, 2009. Grundlegende Statistik: Konventionelle Methoden und moderne Erkenntnisse verstehen . Oxford University Press, Oxford.

— TEG - Setzen Sie Monica wieder ein
quelle

1

Danke für die Antwort. Ihre Antwort liefert eine konkrete Demo der Antwort von Glen_b: Wenn die Stichprobengröße sehr groß ist, wird eine kleine Abweichung von der Null (in der Praxis gibt es immer eine kleine Abweichung) als signifikanter Effekt erfasst.

— Bayesric

2

In der Regression für das Gesamtmodell ist der Test auf F. Hier

F = \frac{\frac{R S S_{1} - R S S_{2}}{p_{2} - p_{1}}}{\frac{R S S_{2}}{n - p_{2}}}

$F = \frac{\frac{RSS_1-RSS_2}{p_2 - p_1}}{\frac{RSS_2}{n-p_2}}$

R S S_{1}

$RSS_1$

R S S_{2}

$RSS_2$

— Peter Flom - Wiedereinsetzung von Monica
quelle

1

Danke für die Antwort. Ich bin jedoch skeptisch gegenüber "wenn N größer wird, wird F größer"; Wenn N zunimmt, nimmt auch RSS2 zu. Mir ist nicht klar, warum F größer wird.

— Bayesric

@ Peter Flom dies ist nicht geklärt, aber können Sie einen Blick hier stats.stackexchange.com/questions/343518/…

— user3022875