Der beste Weg, diese Begriffe zu verstehen, ist eine manuelle Regressionsberechnung. Ich habe zwei eng verwandte Antworten ( hier und hier ) geschrieben, die Ihnen jedoch möglicherweise nicht helfen, Ihren speziellen Fall zu verstehen. Aber lesen Sie sie trotzdem durch. Vielleicht helfen sie Ihnen auch dabei, diese Begriffe besser zu verstehen.
In einer Regression (oder ANOVA) bauen wir ein Modell auf, das auf einem Beispieldatensatz basiert, mit dem wir die Ergebnisse einer interessierenden Population vorhersagen können. Dazu werden die folgenden drei Komponenten in einer einfachen linearen Regression berechnet, aus der die anderen Komponenten berechnet werden können, z. B. die mittleren Quadrate, der F-Wert, der R2 (auch der angepasste R2 ) und der Reststandardfehler ( R SE ):
- Gesamtsummen der Quadrate ( SSt o t a l )
- Restsummen der Quadrate ( SSr e s i du a l )
- Modellquadratsummen ( SSm o de l )
Jeder von ihnen bewertet, wie gut das Modell die Daten beschreibt, und gibt die Summe der quadratischen Abstände von den Datenpunkten zum angepassten Modell an (dargestellt als rote Linien in der Darstellung unten).
Die SSt o t a l beurteilen , wie gut die Mittel passen die Daten. Warum das gemein? Da der Mittelwert das einfachste Modell ist, das wir anpassen können, dient er als Modell, mit dem die Regressionslinie der kleinsten Quadrate verglichen wird. Dieses Diagramm unter Verwendung des cars
Datensatzes veranschaulicht Folgendes:
Die SSr e s i du a l beurteilen , wie gut die Regressionslinie der Daten paßt.
Das SSm o de l vergleicht, um wie viel besser die Regressionsgerade mit dem Mittelwert verglichen wird (dh der Differenz zwischen dem SSt o t a l und dem SSr e s i du a l ).
Um Ihre Fragen zu beantworten, berechnen wir zunächst die Begriffe, die Sie verstehen möchten, beginnend mit Modell und Ausgabe als Referenz:
# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares
Die Quadratsummen sind die quadratischen Abstände der einzelnen Datenpunkte zum Modell:
# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model
Die mittleren Quadrate sind die durch die Freiheitsgrade gemittelten Quadratsummen:
# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1
# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model
Meine Antworten auf Ihre Fragen:
Q1:
- Dies ist also eigentlich der durchschnittliche Abstand der beobachteten Werte von der lm-Linie?
R SEMSr e s i du a l
# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se
SSr e s i du a lMSr e s i du a l SSr e s i du a lR SEstellt den durchschnittlichen Abstand der beobachteten Daten vom Modell dar. Intuitiv ist das auch sinnvoll, denn bei geringerem Abstand passt Ihr Modell auch besser.
Q2:
- Jetzt bin ich verwirrt, denn wenn RSE uns sagt, wie weit unsere beobachteten Punkte von der Regressionslinie abweichen, sagt uns ein niedriger RSE tatsächlich: "Ihr Modell passt gut basierend auf den beobachteten Datenpunkten" -> also wie gut unsere Modelle passen Also, was ist der Unterschied zwischen R-Quadrat und RSE?
R2SSmodelSStotal
# R squared
r.sq <- ss.model/ss.total
r.sq
R2SStotalSSmodel
R SER2R SE
R2
Q3:
- Stimmt es, dass wir einen F-Wert haben können, der eine starke Beziehung angibt, die NICHT LINEAR ist, so dass unser RSE hoch und unser R-Quadrat niedrig ist?
FMSm o de lMSr e s i du a l
# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F
F
Ihre dritte Frage ist etwas schwer zu verstehen, aber ich stimme dem von Ihnen angegebenen Zitat zu.