Lineare Regression Was sagt uns die F-Statistik, das R-Quadrat und der Reststandardfehler?

14

Ich bin wirklich verwirrt über den Bedeutungsunterschied im Zusammenhang mit der linearen Regression der folgenden Begriffe:

F-Statistik
R im Quadrat
Reststandardfehler

Ich habe diesen Webstie gefunden der mir einen guten Einblick in die verschiedenen Begriffe der linearen Regression gegeben hat. Die oben genannten Begriffe sehen jedoch ziemlich ähnlich aus (soweit ich das verstehe). Ich werde zitieren, was ich gelesen und was mich verwirrt hat:

Der Reststandardfehler ist ein Maß für die Qualität einer linearen Regressionsanpassung. Der Reststandardfehler ist der durchschnittliche Betrag, um den die Antwort (dist) von der tatsächlichen Regressionslinie abweicht.

1. Dies ist also eigentlich der mittlere Abstand der beobachteten Werte von der lm-Linie?

Die R-Quadrat-Statistik gibt an, wie gut das Modell mit den tatsächlichen Daten übereinstimmt.

2. Jetzt bin ich verwirrt, denn wenn RSE uns sagt, wie weit unsere beobachteten Punkte von der Regressionslinie abweichen, sagt uns ein niedriger RSE tatsächlich: "Ihr Modell passt gut basierend auf den beobachteten Datenpunkten" -> also wie gut unsere Modelle passen, also was ist der Unterschied zwischen R-Quadrat und RSE?

Die F-Statistik ist ein guter Indikator dafür, ob eine Beziehung zwischen unserem Prädiktor und den Antwortvariablen besteht.

3. Stimmt es, dass wir einen F-Wert haben können, der auf eine starke Beziehung hinweist, die NICHT LINEAR ist, so dass unser RSE hoch und unser quadratisches R niedrig ist?

— KingBoomie
quelle

Q 3 F-Wert zeigt keine nichtlineare Beziehung an. Dieses Verhältnis gibt an, ob zwischen den beiden Variablen eine inhaltliche (konstante) Beziehung besteht - abhängig und unabhängig.

— Subhash C. Davar

Es sagt uns nicht die Art der Beziehung - nichtlinear oder linear.

— Subhash C. Davar

12

Der beste Weg, diese Begriffe zu verstehen, ist eine manuelle Regressionsberechnung. Ich habe zwei eng verwandte Antworten ( hier und hier ) geschrieben, die Ihnen jedoch möglicherweise nicht helfen, Ihren speziellen Fall zu verstehen. Aber lesen Sie sie trotzdem durch. Vielleicht helfen sie Ihnen auch dabei, diese Begriffe besser zu verstehen.

In einer Regression (oder ANOVA) bauen wir ein Modell auf, das auf einem Beispieldatensatz basiert, mit dem wir die Ergebnisse einer interessierenden Population vorhersagen können. Dazu werden die folgenden drei Komponenten in einer einfachen linearen Regression berechnet, aus der die anderen Komponenten berechnet werden können, z. B. die mittleren Quadrate, der F-Wert, der $R^2$ (auch der angepasste $R^2$ ) und der Reststandardfehler ( $RSE$ ):

Gesamtsummen der Quadrate ( $SS_{total}$ )
Restsummen der Quadrate ( $SS_{residual}$ )
Modellquadratsummen ( $SS_{model}$ )

Jeder von ihnen bewertet, wie gut das Modell die Daten beschreibt, und gibt die Summe der quadratischen Abstände von den Datenpunkten zum angepassten Modell an (dargestellt als rote Linien in der Darstellung unten).

Die $SS_{total}$ beurteilen , wie gut die Mittel passen die Daten. Warum das gemein? Da der Mittelwert das einfachste Modell ist, das wir anpassen können, dient er als Modell, mit dem die Regressionslinie der kleinsten Quadrate verglichen wird. Dieses Diagramm unter Verwendung des carsDatensatzes veranschaulicht Folgendes:

Die $SS_{residual}$ beurteilen , wie gut die Regressionslinie der Daten paßt.

Das $SS_{model}$ vergleicht, um wie viel besser die Regressionsgerade mit dem Mittelwert verglichen wird (dh der Differenz zwischen dem $SS_{total}$ und dem $SS_{residual}$ ).

Um Ihre Fragen zu beantworten, berechnen wir zunächst die Begriffe, die Sie verstehen möchten, beginnend mit Modell und Ausgabe als Referenz:

# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares

Die Quadratsummen sind die quadratischen Abstände der einzelnen Datenpunkte zum Modell:

# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model

Die mittleren Quadrate sind die durch die Freiheitsgrade gemittelten Quadratsummen:

# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1

# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model

Meine Antworten auf Ihre Fragen:

Q1:

Dies ist also eigentlich der durchschnittliche Abstand der beobachteten Werte von der lm-Linie?

$RSE$ $MS_{residual}$

# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se

$SS_{residual}$ $MS_{residual}$ $SS_{residual}$ $RSE$ stellt den durchschnittlichen Abstand der beobachteten Daten vom Modell dar. Intuitiv ist das auch sinnvoll, denn bei geringerem Abstand passt Ihr Modell auch besser.

Q2:

Jetzt bin ich verwirrt, denn wenn RSE uns sagt, wie weit unsere beobachteten Punkte von der Regressionslinie abweichen, sagt uns ein niedriger RSE tatsächlich: "Ihr Modell passt gut basierend auf den beobachteten Datenpunkten" -> also wie gut unsere Modelle passen Also, was ist der Unterschied zwischen R-Quadrat und RSE?

$R^2$ $SS_{model}$ $SS_{total}$

# R squared
r.sq <- ss.model/ss.total
r.sq

$R^2$ $SS_{total}$ $SS_{model}$

$RSE$ $R^2$ $RSE$

$R^2$

Q3:

Stimmt es, dass wir einen F-Wert haben können, der eine starke Beziehung angibt, die NICHT LINEAR ist, so dass unser RSE hoch und unser R-Quadrat niedrig ist?

$F$ $MS_{model}$ $MS_{residual}$

# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F

$F$

Ihre dritte Frage ist etwas schwer zu verstehen, aber ich stimme dem von Ihnen angegebenen Zitat zu.

— Stefan
quelle

3

(2) Sie verstehen es richtig, Sie haben es nur schwer mit dem Konzept.

Das $R^2$ value gibt an, wie gut das Modell alle Daten berücksichtigt. Es kann nur Werte zwischen 0 und 1 annehmen. Es ist der Prozentsatz der Abweichung der Punkte im Datensatz, den das Modell erklären kann.

Die RSE ist eher ein Deskriptor für die Abweichung von dem Modell, das die Originaldaten darstellen. Also, die $R^2$ sagt: "Das Modell macht das gut, wenn es darum geht, die präsentierten Daten zu erklären." Das RSE sagt: "Als die Daten zugeordnet wurden, erwarteten wir, dass sie hier sind, aber hier ist, wo sie tatsächlich waren." Sie sind sich sehr ähnlich, werden jedoch auf unterschiedliche Weise zur Validierung verwendet.

— Chris
quelle

0

Nur um das zu ergänzen, was Chris oben geantwortet hat:

Die F-Statistik ist die Teilung des Modellmittelquadrats und des Restmittelquadrats. Software wie Stata liefert nach dem Anpassen eines Regressionsmodells auch den mit der F-Statistik verbundenen p-Wert. Auf diese Weise können Sie die Nullhypothese testen, dass die Koeffizienten Ihres Modells Null sind. Man könnte es sich als "statistische Signifikanz des gesamten Modells" vorstellen.

— YSC
quelle