Hier ist ein einfaches Beispiel. Ich weiß nicht, ob Sie mit R vertraut sind, aber hoffentlich ist der Code selbsterklärend genug.
set.seed(9) # this makes the example reproducible
N = 36
# the following generates 3 variables:
x1 = rep(seq(from=11, to=13), each=12)
x2 = rep(rep(seq(from=90, to=150, by=20), each=3 ), times=3)
x3 = rep(seq(from=6, to=18, by=6 ), times=12)
cbind(x1, x2, x3)[1:7,] # 1st 7 cases, just to see the pattern
x1 x2 x3
[1,] 11 90 6
[2,] 11 90 12
[3,] 11 90 18
[4,] 11 110 6
[5,] 11 110 12
[6,] 11 110 18
[7,] 11 130 6
# the following is the true data generating process, note that y is a function of
# x1 & x2, but not x3, note also that x1 is designed above w/ a restricted range,
# & that x2 tends to have less influence on the response variable than x1:
y = 15 + 2*x1 + .2*x2 + rnorm(N, mean=0, sd=10)
reg.Model = lm(y~x1+x2+x3) # fits a regression model to these data
Nun wollen wir sehen, wie das aussieht:
. . .
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.76232 27.18170 -0.065 0.94871
x1 3.11683 2.09795 1.486 0.14716
x2 0.21214 0.07661 2.769 0.00927 **
x3 0.17748 0.34966 0.508 0.61524
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
. . .
F-statistic: 3.378 on 3 and 32 DF, p-value: 0.03016
Wir können uns auf den Abschnitt "Koeffizienten" der Ausgabe konzentrieren. Jeder vom Modell geschätzte Parameter erhält eine eigene Zeile. Die tatsächliche Schätzung selbst ist in der ersten Spalte aufgeführt. Die zweite Spalte listet die Standardfehler der Schätzungen auf, dh eine Schätzung, wie viel Schätzungen von Stichprobe zu Stichprobe "herumspringen" würden, wenn wir diesen Vorgang immer und immer wieder wiederholen würden. Insbesondere handelt es sich um eine Schätzung der Standardabweichung des Stichprobenverteilung der Schätzung. Wenn wir jede Parameterschätzung durch ihre SE dividieren, erhalten wir einen t-Score , der in der dritten Spalte aufgeführt ist. Dies wird zum Testen von Hypothesen verwendet, insbesondere um zu testen, ob die Parameterschätzung "signifikant" von 0 abweicht. Die letzte Spalte ist diep-Wert , der diesem t-Score zugeordnet ist. Es ist die Wahrscheinlichkeit, einen Schätzwert zu finden , der weit oder weiter von 0 entfernt ist, wenn die Nullhypothese wahr wäre. Beachten Sie, dass, wenn die Nullhypothese nicht wahr ist, nicht klar ist, dass dieser Wert überhaupt etwas Bedeutendes aussagt.
Wenn wir zwischen der Koeffiziententabelle und dem oben beschriebenen Prozess zur Erzeugung echter Daten hin und her blicken, sehen wir einige interessante Dinge. Der Achsenabschnitt wird auf -1,8 geschätzt und seine SE beträgt 27, wohingegen der wahre Wert 15 beträgt. Da der zugehörige p-Wert 0,95 beträgt, würde er nicht als "signifikant unterschiedlich" von 0 angesehen (ein Fehler vom Typ II ), sondern es liegt jedoch innerhalb einer SE des wahren Wertes. Diese Schätzung ist daher in Bezug auf den wahren Wert und den Betrag, den sie schwanken sollte, nicht besonders extrem. wir haben einfach nicht genug Macht , um es von 0 zu unterscheiden. Die gleiche Geschichte gilt mehr oder weniger fürx1
. Datenanalysten würden normalerweise sagen, dass es nicht einmal "geringfügig signifikant" ist, da sein p-Wert> .10 ist. Dies ist jedoch ein weiterer Typ-II-Fehler. Die Schätzung für x2
ist ziemlich genau.21214 ≈ .2und der p-Wert ist "hoch signifikant", eine korrekte Entscheidung. x3
Konnte auch nicht von 0 unterschieden werden, p = .62, eine andere richtige Entscheidung (x3 wird im oben beschriebenen Prozess zur Erzeugung echter Daten nicht angezeigt). Interessanterweise ist der p-Wert größer als der für x1
, aber kleiner als der für den Achsenabschnitt, die beide Fehler vom Typ II sind. Wenn wir unter die Koeffiziententabelle schauen, sehen wir schließlich den F-Wert für das Modell, was ein simultaner Test ist. Dieser Test prüft, ob das Modell als Ganzes die Antwortvariable besser vorhersagt als der Zufall allein. Ein anderer Weg, dies zu sagen, ist, ob oder nicht alleDie Schätzungen können nicht von 0 unterschieden werden. Die Ergebnisse dieses Tests lassen darauf schließen, dass zumindest einige der Parameterschätzungen ungleich 0 sind. Dies ist eine weitere korrekte Entscheidung. Da es oben 4 Tests gibt, hätten wir keinen Schutz vor dem Problem von Mehrfachvergleichen ohne dies. (Bedenken Sie, dass es möglich ist, dass p-Werte inkonsistent sind, da es sich um zufällige Variablen handelt. Dies wird weiter unten diskutiert, da es sich bei p-Werten um zufällige Variablen handelt. Wenn das Experiment wiederholt wird, variiert die Signifikanz von Experiment zu Experiment CV hier: Signifikanz von Koeffizienten bei multipler Regression: signifikanter t-Test vs. nicht signifikante F-Statistik , und die umgekehrte Situation hier: Wie kann eine Regression signifikant sein, obwohl alle Prädiktoren nicht signifikant sind?, & hier: F- und t-Statistik in einer Regression .) Vielleicht ist es merkwürdigerweise so, dass dieses Beispiel keine Typ-I-Fehler enthält . In jedem Fall sind alle 5 in diesem Absatz diskutierten Tests Hypothesentests.
Aus Ihrem Kommentar geht hervor, dass Sie sich möglicherweise auch fragen, wie Sie feststellen können, ob eine erklärende Variable wichtiger ist als eine andere. Dies ist eine sehr häufige Frage, die jedoch recht knifflig ist. Stellen Sie sich vor, Sie möchten das Erfolgspotential einer Sportart anhand der Größe und des Gewichts eines Athleten vorhersagen und sich fragen, was wichtiger ist. Eine übliche Strategie besteht darin, festzustellen, welcher geschätzte Koeffizient größer ist. Diese Schätzungen sind jedoch spezifisch für die verwendeten Einheiten: Beispielsweise ändert sich der Gewichtskoeffizient in Abhängigkeit davon, ob Pfund oder Kilogramm verwendet werden. Darüber hinaus ist nicht aus der Ferne klar, wie Pfund und Zoll oder Kilogramm und Zentimeter gleichgesetzt bzw. verglichen werden sollen. Eine Strategie, die Menschen verfolgen, ist die Standardisierung(dh in Z-Scores verwandeln) ihre Daten zuerst. Dann sind diese Dimensionen in gemeinsamen Einheiten (d. H. Standardabweichungen) und die Koeffizienten sind ähnlich wie bei r-Scores . Darüber hinaus ist es möglich zu testen, ob ein r-Score größer als ein anderer ist . Leider bringt dich das nicht aus dem Wald; Wenn das wahre r nicht genau 0 ist, wird das geschätzte r zu einem großen Teil durch den Bereich der verwendeten Kovariatenwerte bestimmt. (Ich weiß nicht, wie leicht es sein wird, zu erkennen, aber @whubers ausgezeichnete Antwort lautet hier: IsR2nützlich oder gefährlich , illustriert diesen Punkt; Um es zu sehen, denke nur darüber nach, wier = r2--√.) Das Beste, was jemals gesagt werden kann, ist, dass die Variabilität in einer erklärenden Variablen innerhalb eines bestimmten Bereichs für die Bestimmung des Niveaus der Reaktion wichtiger ist als die Variabilität in einer anderen erklärenden Variablen innerhalb eines anderen bestimmten Bereichs.