Auswahl des besten Modells unter verschiedenen „besten“ Modellen

28

Wie wählt man ein Modell aus verschiedenen Modellen aus, die nach verschiedenen Methoden ausgewählt wurden (z. B. Rückwärts- oder Vorwärtsauswahl)?

Was ist auch ein sparsames Modell?

regression model-selection

— tom
quelle

Ich habe den Titel bearbeitet, um (hoffentlich) Ihren Standpunkt klarer zu machen.

39

Ein sparsames Modell ist ein Modell, das mit so wenig Prädiktorvariablen wie möglich eine gewünschte Erklärung oder Vorhersage erzielt.

Für die Modellbewertung gibt es verschiedene Methoden, je nachdem, was Sie wissen möchten. Grundsätzlich gibt es zwei Möglichkeiten, ein Modell zu bewerten: Basierend auf Vorhersagen und basierend auf der Anpassungsgüte der aktuellen Daten. Im ersten Fall möchten Sie wissen, ob Ihr Modell neue Daten angemessen vorhersagt, im zweiten Fall möchten Sie wissen, ob Ihr Modell die Beziehungen in Ihren aktuellen Daten angemessen beschreibt. Das sind zwei verschiedene Dinge.

Auswertung anhand von Vorhersagen

Die beste Methode zur Bewertung von Vorhersagemodellen ist die Kreuzvalidierung. Ganz kurz schneiden Sie Ihren Datensatz in z. 10 verschiedene Teile, von denen 9 verwendet werden, um das Modell zu erstellen und die Ergebnisse für den zehnten Datensatz vorherzusagen. Eine einfache mittlere quadratische Differenz zwischen den beobachteten und vorhergesagten Werten gibt Ihnen ein Maß für die Vorhersagegenauigkeit. Wenn Sie dies zehnmal wiederholen, berechnen Sie die mittlere quadratische Differenz über alle zehn Iterationen, um einen allgemeinen Wert mit einer Standardabweichung zu erhalten. Auf diese Weise können Sie zwei Modelle erneut mit statistischen Standardtechniken (t-Test oder ANOVA) auf ihre Vorhersagegenauigkeit hin vergleichen.

Eine Variante des Themas ist das PRESS-Kriterium (Prediction Sum of Squares), definiert als

$\displaystyle\sum^{n}_{i=1} \left(Y_i - \hat{Y}_{i(-i)}\right)^2$

Wo ist der vorhergesagte Wert für die i - te Beobachtung unter Verwendung eines Modells auf der Grundlage aller Beobachtungen minus dem i - ten Wert. Dieses Kriterium ist besonders nützlich, wenn Sie nicht viele Daten haben. In diesem Fall kann die Aufteilung Ihrer Daten wie beim Crossvalidation-Ansatz zu Teilmengen von Daten führen, die für eine stabile Anpassung zu klein sind. $\hat{Y}_{i(-i)}$

Bewertung anhand der Passgenauigkeit

Lassen Sie mich zunächst feststellen, dass dies je nach verwendetem Modell-Framework sehr unterschiedlich ist. Beispielsweise kann ein Likelihood-Ratio-Test für generalisierte additive gemischte Modelle funktionieren, wenn der klassische Gauß-Wert für die Fehler verwendet wird, ist jedoch im Fall der Binomialvariante bedeutungslos.

Zuerst haben Sie die intuitiveren Methoden zum Vergleichen von Modellen. Sie können das Aikake Information Criterion (AIC) oder das Bayesian Information Criterion (BIC) verwenden, um die Anpassungsgüte für zwei Modelle zu vergleichen. Aber nichts sagt Ihnen, dass sich beide Modelle wirklich unterscheiden.

Ein anderes ist das Cp-Kriterium der Malve. Dies überprüft im Wesentlichen mögliche Verzerrungen in Ihrem Modell, indem es das Modell mit allen möglichen Untermodellen (oder einer sorgfältigen Auswahl davon) vergleicht. Siehe auch http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf

Wenn es sich bei den zu vergleichenden Modellen um verschachtelte Modelle handelt (dh alle Prädiktoren und Interaktionen des sparsameren Modells treten auch im vollständigeren Modell auf), können Sie einen formalen Vergleich in Form eines Likelihood-Ratio-Tests (oder eines Chi-Quadrat-Tests) verwenden oder ein F-Test in geeigneten Fällen, z. B. beim Vergleich einfacher linearer Modelle, bei denen die kleinsten Quadrate verwendet werden. Dieser Test kontrolliert im Wesentlichen, ob die zusätzlichen Prädiktoren oder Interaktionen das Modell wirklich verbessern. Dieses Kriterium wird häufig bei schrittweisen Vorwärts- oder Rückwärtsmethoden verwendet.

Über die automatische Modellauswahl

Sie haben Befürworter und Sie haben Feinde dieser Methode. Ich persönlich bin nicht für die automatische Modellauswahl, insbesondere nicht, wenn es um die Beschreibung von Modellen geht, und das aus einer Reihe von Gründen:

In jedem Modell sollten Sie überprüft haben, ob Sie mit Störsignalen angemessen umgehen. Tatsächlich haben viele Datensätze Variablen, die niemals gleichzeitig in ein Modell eingefügt werden sollten. Oft vergessen die Leute, das zu kontrollieren.
Die automatische Modellauswahl ist eine Methode, um Hypothesen zu erstellen, nicht um sie zu testen. Alle Rückschlüsse auf Modelle, die aus der automatischen Modellauswahl stammen, sind ungültig. Keine Möglichkeit, das zu ändern.
Ich habe viele Fälle gesehen, in denen eine schrittweise Auswahl von einem anderen Ausgangspunkt aus ein völlig anderes Modell ergab. Diese Methoden sind alles andere als stabil.
Es ist auch schwierig, eine angemessene Regel einzufügen, da die statistischen Tests zum Vergleichen zweier Modelle erfordern, dass die Modelle verschachtelt sind. Wenn Sie z. B. AIC, BIC oder PRESS verwenden, wird die Grenze für wirklich wichtige Unterschiede willkürlich gewählt.

Im Grunde sehe ich mehr darin, einen ausgewählten Satz von Modellen zu vergleichen, die zuvor ausgewählt wurden. Wenn Sie sich nicht für die statistische Auswertung des Modells und das Testen von Hypothesen interessieren, können Sie mithilfe der Kreuzvalidierung die Vorhersagegenauigkeit Ihrer Modelle vergleichen.

Wenn Sie sich jedoch für Prognosezwecke wirklich für die Variablenauswahl interessieren, sollten Sie sich andere Methoden für die Variablenauswahl ansehen, z. B. Support Vector Machines, Neuronale Netze, Random Forests und ähnliche. Diese werden zum Beispiel in der Medizin viel häufiger verwendet, um herauszufinden, welches der tausend gemessenen Proteine ausreichend vorhersagen kann, ob Sie Krebs haben oder nicht. Nur um ein (berühmtes) Beispiel zu nennen:

http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html

http://www.springerlink.com/content/w68424066825vr3l/

Alle diese Methoden haben auch Regressionsvarianten für kontinuierliche Daten.

— Joris Meys
quelle

Welches Modell würden Sie zwischen Mallows Cp und Rückwärtsauswahl wählen? Sind auch Modelle mit niedrigem SSE und signifikanten Koeffizienten gut?

— Tom

2

@tom: Sie vergleichen Äpfel mit Orangen. Rückwärtsselektion ist eine Methode, Mallows Cp ist ein Kriterium. Mallows Cp kann als Kriterium für die Rückwärtsauswahl verwendet werden. Und wie Sie lesen können, mache ich keine Rückwärtsauswahl. Wenn ich Variablen auswählen muss, verwende ich dafür geeignete Methoden. Ich habe die von Peter Flom erwähnten LASSO- und LAR-Methoden nicht erwähnt, aber sie sind definitiv auch einen Versuch wert.

— Joris Meys

x

$x$

x - 1

$x-1$

2

@FrankHarrell eine kleine Simulation kann beweisen, dass die Korrelation zwischen den p-Werten (vorausgesetzt, Sie sprechen über den F-Test oder ein Äquivalent) und dem AIC nicht vorhanden ist (0,01 in meiner Simulation). Also nein, es gibt keine Beziehung zwischen den P-Werten und dem AIC. Gleiches gilt für BIC und Cp. Eine weitere kleine Simulation wird auch beweisen, dass man in einem schrittweisen Verfahren je nach dem von Ihnen verwendeten Kriterium ziemlich unterschiedliche Ergebnisse erzielt. Also nein: Cp, AIC, BIC sind in keiner Weise nur Transformationen von P-Werten. Wenn ich mir die Formeln anschaue, kann ich in keiner Weise auf eine mathematische Verknüpfung oder Transformation hinweisen.

— Joris Meys

1

@FrankHarrell was nicht bedeutet, dass ich mich im Gegenteil schrittweise für Pro einsetze. Aber Ihre Aussage ist zumindest ein bisschen stark formuliert.

— Joris Meys

20

$\alpha=0.50$

— Frank Harrell
quelle

Die Frage geht nicht um schrittweise, sondern um die Auswahl des besten Modells aus den Ergebnissen verschiedener Ansätze ...

— Joris Meys

4

Ich mag "Sparsamkeit ist dein Feind".

— Peter Flom - Wiedereinsetzung von Monica

1

Danke Peter. Joris - die Auswahl zwischen verschiedenen Ansätzen unterscheidet sich ein bisschen von der schrittweisen Auswahl, aber nicht viel.

— Frank Harrell

16

Die Vorwärts- oder Rückwärtsauswahl ist eine gängige Strategie, die ich jedoch nicht empfehlen kann. Die Ergebnisse eines solchen Modellbaus sind alle falsch. Die p-Werte sind zu niedrig, die Koeffizienten sind von 0 weg vorgespannt, und es gibt andere verwandte Probleme.

Wenn Sie eine automatische Variablenauswahl vornehmen müssen, würde ich die Verwendung einer moderneren Methode wie LASSO oder LAR empfehlen.

Ich schrieb eine SAS-Präsentation mit dem Titel "Stoppen schrittweise: Warum schrittweise und ähnliche Methoden schlecht sind und was Sie verwenden sollten"

Aber wenn möglich, würde ich diese automatisierten Methoden vollständig vermeiden und mich auf Fachkenntnisse verlassen. Eine Idee ist es, 10 sinnvolle Modelle zu generieren und diese anhand eines Informationskriteriums zu vergleichen. @ Nick Sabbe hat einige davon in seiner Antwort aufgelistet.

— Peter Flom - Wiedereinsetzung von Monica
quelle

2

+1 für die Artikelreferenz. Obwohl ich kein SAS-Code verwende, habe ich es vor einigen Monaten gelesen und festgestellt, dass es sich um eine nette, umfassende Behandlung des Problems handelt.

— Josh Hemann

11

Die Antwort darauf hängt stark von Ihrem Ziel ab. Möglicherweise suchen Sie nach statistisch signifikanten Koeffizienten oder möchten möglichst viele Fehlklassifizierungen vermeiden, wenn Sie das Ergebnis für neue Beobachtungen vorhersagen, oder Sie interessieren sich einfach für das Modell mit den am wenigsten falsch positiven Ergebnissen. Vielleicht möchten Sie einfach die Kurve, die den Daten am nächsten kommt.

In jedem der oben genannten Fälle benötigen Sie eine Art Maß für das, wonach Sie suchen. Einige beliebte Maßnahmen mit verschiedenen Anwendungen sind AUC, BIC, AIC, Restfehler, ...

Sie berechnen für jedes Modell das Maß, das am besten zu Ihrem Ziel passt, und vergleichen dann die "Scores" für jedes Modell. Dies führt zum besten Modell für Ihr Ziel.

Einige dieser Maßnahmen (z. B. AIC) belasten die Anzahl der Nicht-Null-Koeffizienten im Modell zusätzlich, da die Verwendung von zu vielen einfach zu einer Überanpassung der Daten führen kann (so dass das Modell nutzlos ist, wenn Sie es für neue Daten verwenden, geschweige denn für die Bevölkerung). Es kann andere Gründe dafür geben, dass ein Modell so wenig Variablen wie möglich enthalten muss, z. B. wenn es einfach kostspielig ist, alle Variablen für die Vorhersage zu messen. Die "Einfachheit" oder "geringe Anzahl von Variablen" in einem Modell wird normalerweise als "Sparsamkeit" bezeichnet.

Kurz gesagt, ein sparsames Modell ist ein "einfaches" Modell, das nicht zu viele Variablen enthält.

Wie so oft bei Fragen dieser Art verweise ich Sie auf das ausgezeichnete Buch " Elemente des statistischen Lernens", um genauere Informationen zu diesem Thema und verwandten Themen zu erhalten.

— Nick Sabbe
quelle

1

Schönes Buch, das Sie dort empfehlen. Ein anderes, das ich empfehlen könnte, sind Angewandte lineare statistische Modelle, die einige Abschnitte zu Auswahlkriterien, Modellauswahl und Modellvergleich enthalten.

— Joris Meys

-1

Ich fand die Diskussion hier interessant, insbesondere die Debatte zwischen Parsimonious und Model mit mehr Koeffizienten und Variablen.

Mein prof. Der verstorbene Dr. Steve betonte früher ein sparsames Modell mit einem niedrigen R ^ 2 im Vergleich zu anderen Modellen mit einer besseren Passform / großem R ^ 2.

Vielen Dank für all die Fische hier!

Akash

— Akash Sondhi - Anfänger Modellbauer
quelle