Kreuzvalidierung mit nichtparametrischen Glättungsregressionen

Wenn ich Regressionsmodelle verwende, bin ich misstrauisch, wenn ich auf Annahmen einer linearen Assoziation zurückgreife. stattdessen mag ich die funktionale Form von Beziehungen zwischen abhängigen und erklärenden Variablen Regression nichtparametrischer Glättung zu erforschen (zB verallgemeinerten Additivmodell , Lowess / Lowess , Linie Glätter läuft , etc.) , bevor ein parametrisches Modell, als geeignete Abschätzung, nichtlineare Regression der kleinsten Quadrate um Parameter für Funktionen zu schätzen, die vom nichtparametrischen Modell vorgeschlagen werden.

Was ist ein guter Weg, um eine Kreuzvalidierung in der nichtparametrischen Glättungsregressionsphase eines solchen Ansatzes durchzuführen? Ich frage mich, ob ich in einer Situation auftreten könnte, in der in einer zufälligen Holdout-Stichprobe A eine Beziehung erkennbar ist, die durch eine lineare Scharnierfunktion mit "gebrochenem Stab" angenähert wird, während die Holdout-Stichprobe B eine Beziehung vorschlägt, die durch eine Parabolschwellenfunktion besser angenähert werden kann.

Würde man einen nicht erschöpfenden Ansatz wählen, einen zufällig ausgewählten Teil der Daten zurückhalten, die nichtparametrische Regression durchführen, plausible Funktionsformen für das Ergebnis interpretieren und dies einige (vom Menschen handhabbare) Male wiederholen und geistig plausible Funktionsformen zählen ?

Oder würde man einen erschöpfenden Ansatz wählen (z. B. LOOCV) und einen Algorithmus verwenden, um "alle Glättungen zu glätten" und diese glattesten Glättungen verwenden, um plausible funktionale Formen zu informieren? (Obwohl ich denke, dass LOOCV meiner Meinung nach sehr unwahrscheinlich ist, dass es zu sehr unterschiedlichen funktionalen Beziehungen kommt, da es unwahrscheinlich ist, dass eine funktionale Form einer ausreichend großen Stichprobe durch einen einzelnen Datenpunkt geändert wird.)

Meine Anwendungen umfassen normalerweise eine vom Menschen verwaltbare Anzahl von Prädiktorvariablen (etwa eine Handvoll bis einige Dutzend), aber meine Stichprobengrößen reichen von einigen Hundert bis zu einigen Hunderttausend. Mein Ziel ist es, ein intuitiv kommuniziertes und leicht zu übersetzendes Modell zu erstellen, das verwendet werden kann, um Vorhersagen von Personen mit anderen als meinen Datensätzen zu treffen, und die die Ergebnisvariablen nicht enthalten.

Referenzen in Antworten sind sehr willkommen.

cross-validation nonparametric-regression

— Alexis
quelle

Es würde helfen, Ihre Frage zu klären: Was möchten Sie mit der Kreuzvalidierung erreichen? Bestimmen Sie, welches Glättungsmodell am besten funktioniert?

— Jubo

Vielen Dank. Ich bin daran interessiert, kreuzvalidierte parametrische Vorhersagemodelle zu generieren. Ich bin jedoch mit der Annahme linearer funktionaler Beziehungen zwischen abhängigen und unabhängigen Variablen nicht zufrieden. Daher der oben beschriebene nichtparametrische -> parametrische nichtlineare Ansatz. Ich bin daran interessiert, im ersten Schritt einen Lebenslauf zu erstellen, um die vorgeschlagenen Funktionsformen zu validieren (z. B. schlagen verschiedene durchgehaltene Teilproben unterschiedliche Funktionen vor?).

— Alexis

-1

Mir scheint, Ihre Frage enthält zwei Verwirrungen:

Erstens erfordert die lineare Regression (kleinstes Quadrat) keine lineare Beziehung in den unabhängigen Variablen , sondern in den Parametern .

$y=a + b \cdot x e^{-x} + c \cdot \frac{z}{1 + x^2}$ $y$ $a$ $b$ $c$ $y = a + b \cdot x + b^2 \cdot z$ $y$ $b$
Zweitens, wie bestimmen Sie ein "korrektes" Funktionsmodell aus einem Glatter, dh wie gehen Sie von Schritt 1 zu Schritt 2?

Soweit ich weiß, gibt es aus Glättungstechniken wie Splines, neuronalen Netzen usw. keine Möglichkeit, "welche Funktionen von Regressoren zu verwenden sind" abzuleiten, außer vielleicht durch Zeichnen der geglätteten Ausgaben und Bestimmen von Beziehungen durch Intuition, aber das tut es nicht. Es klingt für mich nicht sehr robust, und es scheint, dass man dafür keine Glättung braucht, nur Streudiagramme.

Wenn Ihr Endziel ein lineares Regressionsmodell ist und Sie das Problem haben, dass Sie nicht genau wissen, welche funktionale Form der Regressoren verwendet werden soll, sollten Sie ein reguliertes lineares Regressionsmodell (wie LASSO ) direkt mit a anpassen große Basiserweiterung der ursprünglichen Regressoren (wie Polynome der Regressoren, Exponentiale, Protokolle, ...). Das Regularisierungsverfahren sollte dann die nicht benötigten Regressoren eliminieren und Ihnen ein (hoffentlich gutes) parametrisches Modell hinterlassen. Mithilfe der Kreuzvalidierung können Sie den optimalen Bestrafungsparameter ermitteln (der die tatsächlichen Freiheitsgrade des Modells bestimmt).

Sie können nichtparametrische Regressionen immer als Benchmark für Generalisierungsfehler verwenden, um zu überprüfen, ob Ihr reguliertes lineares Modell externe Daten ebenso vorhersagt wie einen nichtparametrischen Glättungsfaktor.

— Jubo
quelle

β_{x} x + β_{h} max (x - θ, 0)

$\beta_{x}x + \beta_{\text{h}}\max(x-\theta,0)$

θ

$\theta$

Ihr 2. Punkt: Sie sagen zu Recht, dass der Übergang von Schritt 1 zu 2 Intuition erfordert. Ein Vorteil der Verwendung eines solchen "nicht robusten" Ansatzes (im Gegensatz zu algorithmischen Kurvenanpassungsansätzen) besteht jedoch (meiner Erfahrung nach) darin, die Beziehung zwischen Ergebnis und Prädiktor mit einer einigermaßen intuitiven Parametrisierung zu kommunizieren (z. B. fraktionierte Polynomfunktionen, die Denken Sie nicht an eine bestimmte Form, mit Fehlern, die dem algorithmischen Ansatz ziemlich nahe kommen. Also: besser als lineare Parameterannahmen, aber die Interpretierbarkeit für das Publikum beibehalten.

— Alexis

Mir ist nicht klar, dass LASSO meine Bedürfnisse erfüllen würde: Ich bin nicht in einer Situation.

p > n

$p > n$

— Alexis

Ich möchte Sie dringend bitten, Ihren Lassokommentar zu überdenken. Obwohl Lasso mit Blick auf entworfen wurde, ist seine Nützlichkeit nicht auf diese Situation beschränkt, insbesondere wenn ein sparsames (kleines) Modell mit hoher Vorhersagekraft gesucht wird. jubo schlug vor, die Anzahl der Kovariaten zu erweitern, indem eine große Basiserweiterung, Splines oder orthogonale Polynome hinzugefügt wurden und Lasso dann die relevanten auswählen ließ.

p > n

$p > n$

— Matthew Drury

Ich bin mir nicht sicher, ob ein Lasso-Ansatz für Splines wirklich ideal ist, da sie tendenziell eine enge Unterstützung haben (für Kubik, glaube ich, werden sie zwischen vier aufeinander folgenden Knoten unterstützt). Eine Kombination von L1- und L2-Strafen mit glmnet kann jedoch funktionieren.

— Matthew Drury