Problemberechnung, Interpretation von Regsubsets und allgemeine Fragen zum Modellauswahlverfahren

Ich möchte Modelle mit auswählen regsubsets(). Ich habe einen Datenrahmen namens olympiadaten (hochgeladene Daten: http://www.sendspace.com/file/8e27d0 ). Ich hänge zuerst diesen Datenrahmen an und beginne dann mit der Analyse. Mein Code lautet:

attach(olympiadaten)

library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + 
              Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")


summary(lm(Gesamt~ExpHealth))

Screenshot der Handlung:

Das Problem ist nun, dass ich das beste Modell wieder "manuell" anpassen und es mir ansehen möchte, aber der Wert des angepassten R-Quadrats nicht der gleiche ist wie in der Ausgabe der Regsubsets? Dies gilt auch für die anderen Modelle, z. B. wenn ich das einfachste Modell in der Grafik mache:

summary(lm(Gesamt~ExpHealth))

Die Grafik sagt, es sollte ein angepasstes R-Quadrat von ungefähr 0,14 haben, aber wenn ich mir die Ausgabe anschaue, erhalte ich einen Wert von 0,06435.

Hier ist die Ausgabe von summary(lm(Gesamt~ExpHealth)):

Call:
lm(formula = Gesamt ~ ExpHealth)

Residuals:
    Min      1Q  Median      3Q     Max 
-18.686  -9.856  -4.496   1.434  81.980 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  -3.0681     6.1683  -0.497   0.6203  
ExpHealth     1.9903     0.7805   2.550   0.0127 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 18.71 on 79 degrees of freedom
  (4 observations deleted due to missingness)
Multiple R-squared: 0.07605,    Adjusted R-squared: 0.06435 
F-statistic: 6.502 on 1 and 79 DF,  p-value: 0.01271

Ich weiß nicht, was ich falsch gemacht haben könnte, jede Hilfe wäre dankbar.

Und zu guter Letzt noch ein paar Fragen:

Was ist der Unterschied zwischen der Auswahl von Modellen nach AIC und nach Adj. R im Quadrat?
Beide messen die Anpassung und erkennen die Anzahl der Variablen, sodass nicht das beste von AIC ausgewählte Modell auch das Modell mit der höchsten Einstellung ist. r im Quadrat?
Wenn ich 12 Variablen habe, bedeutet das, dass es Möglichkeiten von Modellen gibt, richtig? $2^12$
regsubsets()Berechnet der Befehl also jedes Modell und zeigt die zwei besten ( nbest=2) jeder Größe an?
Wenn ja, bekomme ich wirklich das "beste" Modell?
Und wenn ich AIC mit Rückwärtsauswahl mache (beginnend mit dem Modell, das alle Variablen enthält), endet dies dann auch mit demselben Modell, das regsubsets()sagt , dass es das Beste ist?

r multiple-regression model-selection

— user1690846
quelle

Der Unterschied im angepassten besteht darin, dass einige der Variablen fehlende Werte haben. Ich glaube, Sie würden das gleiche angepasste wenn Sie das Modell "manuell" anpassen würden, indem Sie nur die Teilmenge der Daten verwenden, für die alle Variablen (in der Formel in regsubsets) nicht fehlen. Hinweis: Die Auswahl Ihres Modells mithilfe von Regsubsets wird als schlechte Methode angesehen.

R^{2}

$R^2$

R^{2}

$R^2$

— Mark999

@ mark999 Ihre Kommentare sind gut und es sieht so aus, als ob es die richtige Antwort gibt. Sie sollten es in eine Antwort konvertieren.

— Michael R. Chernick

Danke @MichaelChernick, aber ich möchte es lieber als Kommentar hinterlassen.

— Mark999

@ user1690846 Ich empfehle, Peter Floms

— mark999

@ mark999 Zunächst einmal vielen Dank für eine Antwort, aber warum ist dies eine schlechte Methode? Und ist die Auswahl mit AIC besser? Soll ich das Modell also mit na.omit (olympiadaten) anpassen? Wenn jemand eine Antwort auf die anderen Fragen hat, wären weitere Antworten sehr dankbar, danke

— user1690846

Antworten:

Um die Idee zu fördern, alle Teilmengen oder besten Teilmengen-Tools zu verwenden, um ein "bestes" Anpassungsmodell zu finden, erzählt das Buch "How to Lie with Statistics" von Darrell Huff eine Geschichte über Readers Digest, in der ein Vergleich der Chemikalien im Zigarettenrauch veröffentlicht wird. Der Punkt ihres Artikels war zu zeigen, dass es keinen wirklichen Unterschied zwischen den verschiedenen Marken gab, aber eine Marke war in einigen der Chemikalien am niedrigsten (aber so wenig, dass der Unterschied bedeutungslos war) und diese Marke startete eine große Werbekampagne basierend auf laut Readers Digest der "niedrigste" oder "beste" zu sein.

Alle Teilmengen oder Regressionen der besten Teilmengen sind ähnlich. Die eigentliche Meldung in der von Ihnen angezeigten Grafik lautet nicht "Hier ist die Beste", sondern wirklich, dass es kein bestes Modell gibt. Aus statistischer Sicht (unter Verwendung des angepassten R-Quadrats) ist der Großteil Ihres Modells ziemlich gleich (die wenigen unten sind den oben genannten unterlegen, der Rest ist jedoch alle ähnlich). Ihr Wunsch, ein "bestes" Modell von diesem Tisch zu finden, ist wie die Aussage der Zigarettenfirma, dass ihr Produkt das beste war, wenn der Zweck darin bestand, zu zeigen, dass sie alle ähnlich waren.

Hier ist etwas zu versuchen, löschen Sie zufällig einen Punkt aus dem Datensatz und führen Sie die Analyse erneut aus. Erhalten Sie das gleiche "beste" Modell? oder ändert es sich? Wiederholen Sie diesen Vorgang einige Male und löschen Sie jedes Mal einen anderen Punkt, um zu sehen, wie sich das "beste" Modell ändert. Sind Sie wirklich zufrieden damit, zu behaupten, ein Modell sei "am besten", wenn diese kleine Änderung der Daten ein anderes "am besten" ergibt? Sehen Sie sich auch an, wie unterschiedlich die Koeffizienten zwischen den verschiedenen Modellen sind. Wie interpretieren Sie diese Änderungen?

Es ist besser, die Frage und die Wissenschaft hinter den Daten zu verstehen und diese Informationen zu verwenden, um sich für ein "bestes" Modell zu entscheiden. Betrachten Sie zwei Modelle, die sehr ähnlich sind. Der einzige Unterschied besteht darin, dass ein Modell und das andere stattdessen enthält . Das Modell mit passt etwas besser (adj r-Quadrat von 0,49 gegenüber 0,48). Um zu messen, muss jedoch operiert werden und 2 Wochen auf Laborergebnisse gewartet werden, während gemessen wird $x_1$ $x_2$ $x_1$ $x_1$ $x_2$ dauert 5 Minuten und ein Blutdruckmessgerät. Wäre es wirklich die zusätzliche Zeit, die Kosten und das Risiko wert, diese zusätzlichen 0,01 im R-Quadrat des Einstellers zu erhalten, oder wäre das bessere Modell das schnellere, billigere und sicherere Modell? Was macht aus wissenschaftlicher Sicht Sinn? Glauben Sie in Ihrem obigen Beispiel wirklich, dass eine Erhöhung der Militärausgaben die olympischen Leistungen verbessern wird? oder ist dies ein Fall, in dem diese Variable als Ersatz für andere Ausgabenvariablen fungiert, die direktere Auswirkungen haben würden?

Andere Dinge, die berücksichtigt werden müssen, sind, mehrere gute Modelle zu nehmen und zu kombinieren (Model Averaging) oder anstatt jede Variable entweder vollständig oder vollständig zu verwenden, um eine Form von Strafe hinzuzufügen (Ridge-Regression, LASSO, Elasticnet, ...).

— Greg Snow
quelle

Gute Antwort! Highlights zu "Es ist besser, die Frage und die Wissenschaft hinter den Daten zu verstehen und diese Informationen zu verwenden, um sich für ein" bestes "Modell" und den folgenden Absatz zu entscheiden.

— Andre Silva

Einige Fragen wurden beantwortet, daher gehe ich nur auf die Modellauswahl ein. AIC, BIC, Mallow Cp und angepasstes R sind alle Methoden zum Vergleichen und Auswählen von Modellen, die Probleme überanpassender Modelle durch ein angepasstes Maß oder eine Straffunktion in den Kriterien berücksichtigen. In Fällen, in denen sich die Straffunktionen unterscheiden, können zwei ähnliche Kriterien zu unterschiedlichen Entscheidungen für ein endgültiges Modell führen. Der Mindestwert für verschiedene Kriterien kann bei verschiedenen Modellen auftreten. Dies wurde häufig bei Modellen beobachtet, die von AIC und BIC ausgewählt wurden. $^2$

Ich weiß wirklich nicht, was du mit dem besten Modell meinst. Jedes Kriterium gibt im Wesentlichen eine andere Definition des Besten. Sie können ein Modell in Bezug auf Information, Entropie, stochastische Komplexität, erklärte (angepasste) prozentuale Varianz und mehr am besten nennen. Wenn Sie sich mit einem bestimmten Kriterium befassen und das wahre Minimum für beispielsweise AIC über alle möglichen Modelle am besten erfassen möchten, kann dies nur durch Betrachten aller Modelle (dh aller Teilmengenauswahlen für die Variablen) garantiert werden. Step-up, Step-down und schrittweise Verfahren finden nicht immer das beste Modell im Sinne eines bestimmten Kriteriums. Mit der schrittweisen Regression können Sie sogar unterschiedliche Antworten erhalten, indem Sie ein anderes Modell starten. Ich bin sicher, Frank Harrell würde dazu viel zu sagen haben.

Um mehr zu erfahren, stehen mehrere gute Bücher zur Modell- / Teilmengenauswahl zur Verfügung, auf die ich hier in anderen Beiträgen verwiesen habe. Auch Lacey Gunters Monographie mit Springer in ihrer SpringerBrief-Reihe wird in Kürze erscheinen. Ich war Mitautorin dieses Buches.

— Michael R. Chernick
quelle