Wenig Hintergrund
Ich arbeite an der Interpretation der Regressionsanalyse, aber ich bin sehr verwirrt über die Bedeutung von r, r im Quadrat und der restlichen Standardabweichung. Ich kenne die Definitionen:
Charakterisierungen
r misst die Stärke und Richtung einer linearen Beziehung zwischen zwei Variablen in einem Streudiagramm
Das R-Quadrat ist ein statistisches Maß dafür, wie nahe die Daten an der angepassten Regressionslinie liegen.
Die Reststandardabweichung ist ein statistischer Ausdruck, der zur Beschreibung der Standardabweichung von Punkten verwendet wird, die um eine lineare Funktion gebildet werden, und ist eine Schätzung der Genauigkeit der zu messenden abhängigen Variablen. ( Ich weiß nicht, was die Einheiten sind. Informationen zu den Einheiten hier wären hilfreich. )
(Quellen: hier )
Frage
Obwohl ich die Charakterisierungen "verstehe", verstehe ich, wie diese Begriffe eine Schlussfolgerung über den Datensatz ziehen können. Ich werde hier ein kleines Beispiel einfügen. Vielleicht kann dies als Leitfaden für die Beantwortung meiner Frage dienen ( Sie können
gerne ein eigenes
Beispiel verwenden !). Beispiel
Dies ist keine Howework-Frage, ich habe jedoch in meinem Buch nach einem einfachen Beispiel gesucht (Der aktuelle Datensatz, den ich analysiere, ist zu komplex und zu groß, um ihn hier anzuzeigen.)
In einem großen Getreidefeld wurden 20 Parzellen zu je 10 x 4 Metern zufällig ausgewählt. Für jede Parzelle wurden die Pflanzendichte (Anzahl der Pflanzen in der Parzelle) und das mittlere Kolbengewicht (g Getreide pro Kolben) beobachtet. Die Ergebnisse sind in der folgenden Tabelle aufgeführt:
(Quelle: Statistik für die Biowissenschaften )
╔═══════════════╦════════════╦══╗
║ Platn density ║ Cob weight ║ ║
╠═══════════════╬════════════╬══╣
║ 137 ║ 212 ║ ║
║ 107 ║ 241 ║ ║
║ 132 ║ 215 ║ ║
║ 135 ║ 225 ║ ║
║ 115 ║ 250 ║ ║
║ 103 ║ 241 ║ ║
║ 102 ║ 237 ║ ║
║ 65 ║ 282 ║ ║
║ 149 ║ 206 ║ ║
║ 85 ║ 246 ║ ║
║ 173 ║ 194 ║ ║
║ 124 ║ 241 ║ ║
║ 157 ║ 196 ║ ║
║ 184 ║ 193 ║ ║
║ 112 ║ 224 ║ ║
║ 80 ║ 257 ║ ║
║ 165 ║ 200 ║ ║
║ 160 ║ 190 ║ ║
║ 157 ║ 208 ║ ║
║ 119 ║ 224 ║ ║
╚═══════════════╩════════════╩══╝
Zuerst mache ich ein Streudiagramm, um die Daten zu visualisieren:
So kann ich r, R 2 und die verbleibende Standardabweichung berechnen.
Zuerst der Korrelationstest:
Pearson's product-moment correlation
data: X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.9770972 -0.8560421
sample estimates:
cor
-0.9417954
und zweitens eine Zusammenfassung der Regressionsgeraden:
Residuals:
Min 1Q Median 3Q Max
-11.666 -6.346 -1.439 5.049 16.496
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 316.37619 7.99950 39.55 < 2e-16 ***
X -0.72063 0.06063 -11.88 5.89e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared: 0.887, Adjusted R-squared: 0.8807
F-statistic: 141.3 on 1 and 18 DF, p-value: 5.889e-10
Also basierend auf diesem Test: r = -0.9417954
, R-Quadrat: 0.887
und Reststandardfehler: 8.619
Was sagen diese Werte über den Datensatz aus? (siehe Frage )