Multiple lineare Regression zum Testen von Hypothesen

15

Ich bin mit der Verwendung mehrerer linearer Regressionen vertraut, um Modelle verschiedener Variablen zu erstellen. Ich war jedoch neugierig, ob Regressionstests jemals zur Durchführung grundlegender Hypothesentests verwendet werden. Wenn ja, wie würden diese Szenarien / Hypothesen aussehen?

regression hypothesis-testing multiple-regression

— cryptic_star
quelle

1

Kannst du weiter erklären, was du meinst? Es ist üblich zu testen, ob sich der Steigungsparameter für eine Variable von Null unterscheidet. Ich würde das "Hypothesentest" nennen. Weißt du das nicht oder meinst du etwas anderes? Was ist ein Szenario für Ihre Zwecke?

— gung - Wiedereinsetzung von Monica

Das weiß ich nicht. Ich war mir auch nicht sicher, ob für andere Hypothesentests eine auf Regression basierende Analyse verwendet wird (möglicherweise über die Bedeutung einer Variablen gegenüber einer anderen usw.).

— cryptic_star

25

Hier ist ein einfaches Beispiel. Ich weiß nicht, ob Sie mit R vertraut sind, aber hoffentlich ist der Code selbsterklärend genug.

set.seed(9)        # this makes the example reproducible
N = 36
    # the following generates 3 variables:
x1 =     rep(seq(from=11, to=13),           each=12)
x2 = rep(rep(seq(from=90, to=150, by=20),   each=3 ), times=3)
x3 =     rep(seq(from=6,  to=18,  by=6 ),  times=12)
cbind(x1, x2, x3)[1:7,]    # 1st 7 cases, just to see the pattern
      x1  x2 x3
 [1,] 11  90  6
 [2,] 11  90 12
 [3,] 11  90 18
 [4,] 11 110  6
 [5,] 11 110 12
 [6,] 11 110 18
 [7,] 11 130  6 
    # the following is the true data generating process, note that y is a function of
    #   x1 & x2, but not x3, note also that x1 is designed above w/ a restricted range,
    #   & that x2 tends to have less influence on the response variable than x1:
y  = 15 + 2*x1 + .2*x2 + rnorm(N, mean=0, sd=10)

reg.Model = lm(y~x1+x2+x3)    # fits a regression model to these data

Nun wollen wir sehen, wie das aussieht:

. . . 
Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) -1.76232   27.18170  -0.065  0.94871   
x1           3.11683    2.09795   1.486  0.14716   
x2           0.21214    0.07661   2.769  0.00927 **
x3           0.17748    0.34966   0.508  0.61524   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
. . . 
F-statistic: 3.378 on 3 and 32 DF,  p-value: 0.03016

Wir können uns auf den Abschnitt "Koeffizienten" der Ausgabe konzentrieren. Jeder vom Modell geschätzte Parameter erhält eine eigene Zeile. Die tatsächliche Schätzung selbst ist in der ersten Spalte aufgeführt. Die zweite Spalte listet die Standardfehler der Schätzungen auf, dh eine Schätzung, wie viel Schätzungen von Stichprobe zu Stichprobe "herumspringen" würden, wenn wir diesen Vorgang immer und immer wieder wiederholen würden. Insbesondere handelt es sich um eine Schätzung der Standardabweichung des Stichprobenverteilung der Schätzung. Wenn wir jede Parameterschätzung durch ihre SE dividieren, erhalten wir einen t-Score , der in der dritten Spalte aufgeführt ist. Dies wird zum Testen von Hypothesen verwendet, insbesondere um zu testen, ob die Parameterschätzung "signifikant" von 0 abweicht. Die letzte Spalte ist diep-Wert , der diesem t-Score zugeordnet ist. Es ist die Wahrscheinlichkeit, einen Schätzwert zu finden , der weit oder weiter von 0 entfernt ist, wenn die Nullhypothese wahr wäre. Beachten Sie, dass, wenn die Nullhypothese nicht wahr ist, nicht klar ist, dass dieser Wert überhaupt etwas Bedeutendes aussagt.

Wenn wir zwischen der Koeffiziententabelle und dem oben beschriebenen Prozess zur Erzeugung echter Daten hin und her blicken, sehen wir einige interessante Dinge. Der Achsenabschnitt wird auf -1,8 geschätzt und seine SE beträgt 27, wohingegen der wahre Wert 15 beträgt. Da der zugehörige p-Wert 0,95 beträgt, würde er nicht als "signifikant unterschiedlich" von 0 angesehen (ein Fehler vom Typ II ), sondern es liegt jedoch innerhalb einer SE des wahren Wertes. Diese Schätzung ist daher in Bezug auf den wahren Wert und den Betrag, den sie schwanken sollte, nicht besonders extrem. wir haben einfach nicht genug Macht , um es von 0 zu unterscheiden. Die gleiche Geschichte gilt mehr oder weniger fürx1. Datenanalysten würden normalerweise sagen, dass es nicht einmal "geringfügig signifikant" ist, da sein p-Wert> .10 ist. Dies ist jedoch ein weiterer Typ-II-Fehler. Die Schätzung für x2ist ziemlich genau $.21214\approx.2$ und der p-Wert ist "hoch signifikant", eine korrekte Entscheidung. x3Konnte auch nicht von 0 unterschieden werden, p = .62, eine andere richtige Entscheidung (x3 wird im oben beschriebenen Prozess zur Erzeugung echter Daten nicht angezeigt). Interessanterweise ist der p-Wert größer als der für x1, aber kleiner als der für den Achsenabschnitt, die beide Fehler vom Typ II sind. Wenn wir unter die Koeffiziententabelle schauen, sehen wir schließlich den F-Wert für das Modell, was ein simultaner Test ist. Dieser Test prüft, ob das Modell als Ganzes die Antwortvariable besser vorhersagt als der Zufall allein. Ein anderer Weg, dies zu sagen, ist, ob oder nicht alleDie Schätzungen können nicht von 0 unterschieden werden. Die Ergebnisse dieses Tests lassen darauf schließen, dass zumindest einige der Parameterschätzungen ungleich 0 sind. Dies ist eine weitere korrekte Entscheidung. Da es oben 4 Tests gibt, hätten wir keinen Schutz vor dem Problem von Mehrfachvergleichen ohne dies. (Bedenken Sie, dass es möglich ist, dass p-Werte inkonsistent sind, da es sich um zufällige Variablen handelt. Dies wird weiter unten diskutiert, da es sich bei p-Werten um zufällige Variablen handelt. Wenn das Experiment wiederholt wird, variiert die Signifikanz von Experiment zu Experiment CV hier: Signifikanz von Koeffizienten bei multipler Regression: signifikanter t-Test vs. nicht signifikante F-Statistik , und die umgekehrte Situation hier: Wie kann eine Regression signifikant sein, obwohl alle Prädiktoren nicht signifikant sind?, & hier: F- und t-Statistik in einer Regression .) Vielleicht ist es merkwürdigerweise so, dass dieses Beispiel keine Typ-I-Fehler enthält . In jedem Fall sind alle 5 in diesem Absatz diskutierten Tests Hypothesentests.

Aus Ihrem Kommentar geht hervor, dass Sie sich möglicherweise auch fragen, wie Sie feststellen können, ob eine erklärende Variable wichtiger ist als eine andere. Dies ist eine sehr häufige Frage, die jedoch recht knifflig ist. Stellen Sie sich vor, Sie möchten das Erfolgspotential einer Sportart anhand der Größe und des Gewichts eines Athleten vorhersagen und sich fragen, was wichtiger ist. Eine übliche Strategie besteht darin, festzustellen, welcher geschätzte Koeffizient größer ist. Diese Schätzungen sind jedoch spezifisch für die verwendeten Einheiten: Beispielsweise ändert sich der Gewichtskoeffizient in Abhängigkeit davon, ob Pfund oder Kilogramm verwendet werden. Darüber hinaus ist nicht aus der Ferne klar, wie Pfund und Zoll oder Kilogramm und Zentimeter gleichgesetzt bzw. verglichen werden sollen. Eine Strategie, die Menschen verfolgen, ist die Standardisierung(dh in Z-Scores verwandeln) ihre Daten zuerst. Dann sind diese Dimensionen in gemeinsamen Einheiten (d. H. Standardabweichungen) und die Koeffizienten sind ähnlich wie bei r-Scores . Darüber hinaus ist es möglich zu testen, ob ein r-Score größer als ein anderer ist . Leider bringt dich das nicht aus dem Wald; Wenn das wahre r nicht genau 0 ist, wird das geschätzte r zu einem großen Teil durch den Bereich der verwendeten Kovariatenwerte bestimmt. (Ich weiß nicht, wie leicht es sein wird, zu erkennen, aber @whubers ausgezeichnete Antwort lautet hier: Is $R^2$ nützlich oder gefährlich , illustriert diesen Punkt; Um es zu sehen, denke nur darüber nach, wie $r=\sqrt{r^2}$ .) Das Beste, was jemals gesagt werden kann, ist, dass die Variabilität in einer erklärenden Variablen innerhalb eines bestimmten Bereichs für die Bestimmung des Niveaus der Reaktion wichtiger ist als die Variabilität in einer anderen erklärenden Variablen innerhalb eines anderen bestimmten Bereichs.

— gung - Wiedereinsetzung von Monica
quelle

2

Der wesentliche Test in Regressionsmodellen ist der Full-Reduced-Test. Hier vergleichen Sie 2 Regressionsmodelle, das vollständige Modell enthält alle Begriffe und der reduzierte Test enthält eine Teilmenge dieser Begriffe (das reduzierte Modell muss im vollständigen Modell verschachtelt sein). Der Test testet dann die Nullhypothese, dass das reduzierte Modell genauso gut passt wie das vollständige Modell, und dass jeder Unterschied zufällig ist.

Zu den gebräuchlichen Ausdrucken von Statistiksoftware gehört ein Gesamt-F-Test. Dies ist nur der vollständig reduzierte Test, bei dem der reduzierte Test ein reines Intercept-Modell ist. Sie geben auch oft einen p-Wert für jeden einzelnen Prädiktor aus. Dies ist nur eine Reihe von vollständig reduzierten Modelltests. In jedem Modell enthält das reduzierte Modell diesen spezifischen Begriff nicht. Es gibt viele Möglichkeiten, mit diesen Tests interessante Fragen zu beantworten. Tatsächlich kann so ziemlich jeder in einem Einführungskurs gelehrte Test mit Hilfe von Regressionsmodellen und dem Full-Reduced-Test berechnet werden, und die Ergebnisse sind in vielen Fällen identisch und in den wenigen anderen Fällen eine sehr enge Annäherung.

— Greg Snow
quelle