Regression: Was ist der Nutzen von R im Quadrat im Vergleich zu RMSE?

11

Angenommen, ich mache eine Regression mit Trainings-, Validierungs- und Testsätzen. Ich kann RMSE und R im Quadrat (R ^ 2, den Bestimmungskoeffizienten) aus der Ausgabe meiner Software (wie z. B. Rs lm () -Funktion) ermitteln.

Mein Verständnis ist, dass der Test-RMSE (oder MSE) das Maß für die Güte der Vorhersage der Validierungs- / Testwerte ist, während R ^ 2 ein Maß für die Güte der Anpassung bei der Erfassung der Varianz im Trainingssatz ist.

In der realen Welt ist mir die allgemeine Vorhersagegenauigkeit von Daten, die ich nicht gesehen habe, wirklich wichtig. Was ist dann der Nutzen des R ^ 2-Werts im Vergleich zu RMSE?

r regression regression-coefficients r-squared

— stackoverflowuser2010
quelle

7

Das nicht angepasste ist definiert als $R^2$

R^{2} = 1 - \frac{\frac{1}{n} \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i})^{2}}{\frac{1}{n} \sum_{i = 1}^{n} (y_{i} - \bar{y})^{2}} = 1 - \frac{M S E}{\frac{1}{n} T o t S S}

$R^2 = 1 - \frac{\frac{1}{n}\sum_{i=1}^n (y_i - \hat y_i)^2}{\frac{1}{n}\sum_{i=1}^n (y_i - \bar y)^2} = 1 - \frac{MSE}{\frac{1}{n}TotSS}$

Nehmen wir an, der RMSE sei

R M S E = \sqrt{M S E} .

$RMSE = \sqrt{MSE}.$

Für einen gegebenen Datensatz sind und fest, so dass unterschiedliche Modelle nur die Änderung berücksichtigen . Dies bedeutet, dass sich in den obigen Ausdrücken nur die MSE ändert. Also sind sowohl als auch Funktionen derselben Sache, und daher gibt es keinen großen Unterschied (außer bei der Interpretation), wenn man das eine gegen das andere betrachtet. $y_i$ $\bar y$ $\hat y_i$ $R^2$ $RMSE$

Wenn wir stattdessen das angepasste oder wir auch , die Dimension des Modells, die sich für verschiedene Modelle ändert. $R^2$ $RMSE = \sqrt{\frac{n}{n-p}MSE}$ $p$

— jld
quelle

7

Chaconne hat hervorragende Arbeit geleistet, um die Kennzahlenformeln zu definieren und wie sie aus mathematischer Sicht sehr eng miteinander verbunden sind. Wenn Sie Modelle mit demselben Datensatz bewerten oder bewerten, sind diese beiden Kennzahlen austauschbar. Dies bedeutet, dass Sie genau das gleiche Ranking Ihrer Modelle erhalten, unabhängig davon, ob Sie R Square (Rang hoch bis niedrig) oder RMSE (Rang niedrig bis hoch) verwenden. .

Die beiden Maßnahmen haben jedoch eine sehr unterschiedliche Bedeutung und Verwendung. Das R-Quadrat ist nicht nur ein Maß für die Anpassungsgüte, sondern auch ein Maß dafür, wie sehr das Modell (die von Ihnen ausgewählte Menge unabhängiger Variablen) das Verhalten (oder die Varianz) Ihrer abhängigen Variablen erklärt. Wenn Ihr Modell also ein R-Quadrat von 0,60 hat, erklärt dies 60% des Verhaltens Ihrer abhängigen Variablen. Wenn Sie nun das angepasste R-Quadrat verwenden, das das R-Quadrat für die Anzahl der verwendeten Variablen im Wesentlichen benachteiligt, erhalten Sie eine ziemlich gute Vorstellung davon, wann Sie aufhören sollten, Ihrem Modell Variablen hinzuzufügen (und schließlich nur ein Modell erhalten sollten, das überanpasst). Wenn Ihr angepasstes R-Quadrat 0,60 beträgt. Und wenn Sie eine zusätzliche Variable hinzufügen, erhöht sich diese nur auf 0,61. Es lohnt sich wahrscheinlich nicht, diese zusätzliche Variable hinzuzufügen.

Wenn Sie sich nun RMSE zuwenden, wird dies auch am häufigsten als Standardfehler bezeichnet. Es hat eine ganz andere Verwendung als R Square. Mit dem Standardfehler können Sie Konfidenzintervalle um Ihre Regressionsschätzung herum erstellen, wobei Sie davon ausgehen, an welchem Konfidenzniveau Sie interessiert sind (normalerweise 99%, 95% oder 90%). In der Tat entspricht der Standardfehler einem Z-Wert. Wenn Sie also ein 95% -KI um Ihre Regressionstrendlinie erstellen möchten, multiplizieren Sie den Standardfehler mit 1,96 und generieren schnell eine hohe und niedrige Schätzung als Grenze Ihres 95% -KI um die Regressionslinie.

Daher sind sowohl das R-Quadrat (und das angepasste R-Quadrat) als auch der Standardfehler äußerst nützlich, um die statistische Robustheit eines Modells zu bewerten. Und wie angegeben haben sie eine völlig andere praktische Anwendung. Man misst die Erklärungskraft des Modells. Mit dem anderen können Sie Konfidenzintervalle erstellen. Beides, sehr nützlich, aber unterschiedlich.

In Bezug auf die Beurteilung der Vorhersagegenauigkeit von Daten, die Sie nicht gesehen haben, haben beide Maßnahmen ihre Grenzen sowie die meisten anderen Maßnahmen, an die Sie denken können. Bei neuen Daten, die nicht in der Stichprobe enthalten sind, sind das R-Quadrat und der Standardfehler im Verlauf oder in der Lernstichprobe des Modells nicht von großem Nutzen. Das Out-of-Sample-Material ist nur ein guter Test, um zu überprüfen, ob Ihr Modell überangepasst ist (großes R-Quadrat und niedriger Standardfehler, aber schlechte Leistung bei Out-of-Sample) oder nicht. Ich verstehe, dass bessere Maßnahmen für prospektive Daten (Daten, die Sie noch nicht gesehen haben) das Informationskriterium sind, einschließlich AIC, BIC, SIC. Und das Modell mit den besten Informationskriteriumswerten sollte unsichtbare Daten besser verarbeiten, dh prädiktiver sein. Diese Maßnahmen sind enge Verwandte des Adjusted R Square-Konzepts. Jedoch,

— Sympa
quelle

1

Danke für deine Antwort. Ich habe RMSE normalerweise nur zur Beurteilung der Vorhersagekraft eines linearen Regressionsmodells verwendet (nachdem ich die Werte eines unsichtbaren Testsatzes vorhergesagt habe). Ich habe also nicht gesehen, dass RMSE "eine völlig andere Verwendung hat ... um Konfidenzintervalle um Ihre Regressionsschätzung herum aufzubauen." Ich denke, das muss eine statistische Sache sein? Ich komme aus der Informatik, daher habe ich in meiner Karriere nicht sehr viele Konfidenzintervalle berechnet.

— stackoverflowuser2010