Antworten:
Ein sparsames Modell ist ein Modell, das mit so wenig Prädiktorvariablen wie möglich eine gewünschte Erklärung oder Vorhersage erzielt.
Für die Modellbewertung gibt es verschiedene Methoden, je nachdem, was Sie wissen möchten. Grundsätzlich gibt es zwei Möglichkeiten, ein Modell zu bewerten: Basierend auf Vorhersagen und basierend auf der Anpassungsgüte der aktuellen Daten. Im ersten Fall möchten Sie wissen, ob Ihr Modell neue Daten angemessen vorhersagt, im zweiten Fall möchten Sie wissen, ob Ihr Modell die Beziehungen in Ihren aktuellen Daten angemessen beschreibt. Das sind zwei verschiedene Dinge.
Die beste Methode zur Bewertung von Vorhersagemodellen ist die Kreuzvalidierung. Ganz kurz schneiden Sie Ihren Datensatz in z. 10 verschiedene Teile, von denen 9 verwendet werden, um das Modell zu erstellen und die Ergebnisse für den zehnten Datensatz vorherzusagen. Eine einfache mittlere quadratische Differenz zwischen den beobachteten und vorhergesagten Werten gibt Ihnen ein Maß für die Vorhersagegenauigkeit. Wenn Sie dies zehnmal wiederholen, berechnen Sie die mittlere quadratische Differenz über alle zehn Iterationen, um einen allgemeinen Wert mit einer Standardabweichung zu erhalten. Auf diese Weise können Sie zwei Modelle erneut mit statistischen Standardtechniken (t-Test oder ANOVA) auf ihre Vorhersagegenauigkeit hin vergleichen.
Eine Variante des Themas ist das PRESS-Kriterium (Prediction Sum of Squares), definiert als
Wo Y i ( - i ) ist der vorhergesagte Wert für die i - te Beobachtung unter Verwendung eines Modells auf der Grundlage aller Beobachtungen minus dem i - ten Wert. Dieses Kriterium ist besonders nützlich, wenn Sie nicht viele Daten haben. In diesem Fall kann die Aufteilung Ihrer Daten wie beim Crossvalidation-Ansatz zu Teilmengen von Daten führen, die für eine stabile Anpassung zu klein sind.
Lassen Sie mich zunächst feststellen, dass dies je nach verwendetem Modell-Framework sehr unterschiedlich ist. Beispielsweise kann ein Likelihood-Ratio-Test für generalisierte additive gemischte Modelle funktionieren, wenn der klassische Gauß-Wert für die Fehler verwendet wird, ist jedoch im Fall der Binomialvariante bedeutungslos.
Zuerst haben Sie die intuitiveren Methoden zum Vergleichen von Modellen. Sie können das Aikake Information Criterion (AIC) oder das Bayesian Information Criterion (BIC) verwenden, um die Anpassungsgüte für zwei Modelle zu vergleichen. Aber nichts sagt Ihnen, dass sich beide Modelle wirklich unterscheiden.
Ein anderes ist das Cp-Kriterium der Malve. Dies überprüft im Wesentlichen mögliche Verzerrungen in Ihrem Modell, indem es das Modell mit allen möglichen Untermodellen (oder einer sorgfältigen Auswahl davon) vergleicht. Siehe auch http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf
Wenn es sich bei den zu vergleichenden Modellen um verschachtelte Modelle handelt (dh alle Prädiktoren und Interaktionen des sparsameren Modells treten auch im vollständigeren Modell auf), können Sie einen formalen Vergleich in Form eines Likelihood-Ratio-Tests (oder eines Chi-Quadrat-Tests) verwenden oder ein F-Test in geeigneten Fällen, z. B. beim Vergleich einfacher linearer Modelle, bei denen die kleinsten Quadrate verwendet werden. Dieser Test kontrolliert im Wesentlichen, ob die zusätzlichen Prädiktoren oder Interaktionen das Modell wirklich verbessern. Dieses Kriterium wird häufig bei schrittweisen Vorwärts- oder Rückwärtsmethoden verwendet.
Sie haben Befürworter und Sie haben Feinde dieser Methode. Ich persönlich bin nicht für die automatische Modellauswahl, insbesondere nicht, wenn es um die Beschreibung von Modellen geht, und das aus einer Reihe von Gründen:
Im Grunde sehe ich mehr darin, einen ausgewählten Satz von Modellen zu vergleichen, die zuvor ausgewählt wurden. Wenn Sie sich nicht für die statistische Auswertung des Modells und das Testen von Hypothesen interessieren, können Sie mithilfe der Kreuzvalidierung die Vorhersagegenauigkeit Ihrer Modelle vergleichen.
Wenn Sie sich jedoch für Prognosezwecke wirklich für die Variablenauswahl interessieren, sollten Sie sich andere Methoden für die Variablenauswahl ansehen, z. B. Support Vector Machines, Neuronale Netze, Random Forests und ähnliche. Diese werden zum Beispiel in der Medizin viel häufiger verwendet, um herauszufinden, welches der tausend gemessenen Proteine ausreichend vorhersagen kann, ob Sie Krebs haben oder nicht. Nur um ein (berühmtes) Beispiel zu nennen:
http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html
http://www.springerlink.com/content/w68424066825vr3l/
Alle diese Methoden haben auch Regressionsvarianten für kontinuierliche Daten.
Die Vorwärts- oder Rückwärtsauswahl ist eine gängige Strategie, die ich jedoch nicht empfehlen kann. Die Ergebnisse eines solchen Modellbaus sind alle falsch. Die p-Werte sind zu niedrig, die Koeffizienten sind von 0 weg vorgespannt, und es gibt andere verwandte Probleme.
Wenn Sie eine automatische Variablenauswahl vornehmen müssen, würde ich die Verwendung einer moderneren Methode wie LASSO oder LAR empfehlen.
Ich schrieb eine SAS-Präsentation mit dem Titel "Stoppen schrittweise: Warum schrittweise und ähnliche Methoden schlecht sind und was Sie verwenden sollten"
Aber wenn möglich, würde ich diese automatisierten Methoden vollständig vermeiden und mich auf Fachkenntnisse verlassen. Eine Idee ist es, 10 sinnvolle Modelle zu generieren und diese anhand eines Informationskriteriums zu vergleichen. @ Nick Sabbe hat einige davon in seiner Antwort aufgelistet.
Die Antwort darauf hängt stark von Ihrem Ziel ab. Möglicherweise suchen Sie nach statistisch signifikanten Koeffizienten oder möchten möglichst viele Fehlklassifizierungen vermeiden, wenn Sie das Ergebnis für neue Beobachtungen vorhersagen, oder Sie interessieren sich einfach für das Modell mit den am wenigsten falsch positiven Ergebnissen. Vielleicht möchten Sie einfach die Kurve, die den Daten am nächsten kommt.
In jedem der oben genannten Fälle benötigen Sie eine Art Maß für das, wonach Sie suchen. Einige beliebte Maßnahmen mit verschiedenen Anwendungen sind AUC, BIC, AIC, Restfehler, ...
Sie berechnen für jedes Modell das Maß, das am besten zu Ihrem Ziel passt, und vergleichen dann die "Scores" für jedes Modell. Dies führt zum besten Modell für Ihr Ziel.
Einige dieser Maßnahmen (z. B. AIC) belasten die Anzahl der Nicht-Null-Koeffizienten im Modell zusätzlich, da die Verwendung von zu vielen einfach zu einer Überanpassung der Daten führen kann (so dass das Modell nutzlos ist, wenn Sie es für neue Daten verwenden, geschweige denn für die Bevölkerung). Es kann andere Gründe dafür geben, dass ein Modell so wenig Variablen wie möglich enthalten muss, z. B. wenn es einfach kostspielig ist, alle Variablen für die Vorhersage zu messen. Die "Einfachheit" oder "geringe Anzahl von Variablen" in einem Modell wird normalerweise als "Sparsamkeit" bezeichnet.
Kurz gesagt, ein sparsames Modell ist ein "einfaches" Modell, das nicht zu viele Variablen enthält.
Wie so oft bei Fragen dieser Art verweise ich Sie auf das ausgezeichnete Buch " Elemente des statistischen Lernens", um genauere Informationen zu diesem Thema und verwandten Themen zu erhalten.
Ich fand die Diskussion hier interessant, insbesondere die Debatte zwischen Parsimonious und Model mit mehr Koeffizienten und Variablen.
Mein prof. Der verstorbene Dr. Steve betonte früher ein sparsames Modell mit einem niedrigen R ^ 2 im Vergleich zu anderen Modellen mit einer besseren Passform / großem R ^ 2.
Vielen Dank für all die Fische hier!
Akash