Wenn ich Regressionsmodelle verwende, bin ich misstrauisch, wenn ich auf Annahmen einer linearen Assoziation zurückgreife. stattdessen mag ich die funktionale Form von Beziehungen zwischen abhängigen und erklärenden Variablen Regression nichtparametrischer Glättung zu erforschen (zB verallgemeinerten Additivmodell , Lowess / Lowess , Linie Glätter läuft , etc.) , bevor ein parametrisches Modell, als geeignete Abschätzung, nichtlineare Regression der kleinsten Quadrate um Parameter für Funktionen zu schätzen, die vom nichtparametrischen Modell vorgeschlagen werden.
Was ist ein guter Weg, um eine Kreuzvalidierung in der nichtparametrischen Glättungsregressionsphase eines solchen Ansatzes durchzuführen? Ich frage mich, ob ich in einer Situation auftreten könnte, in der in einer zufälligen Holdout-Stichprobe A eine Beziehung erkennbar ist, die durch eine lineare Scharnierfunktion mit "gebrochenem Stab" angenähert wird, während die Holdout-Stichprobe B eine Beziehung vorschlägt, die durch eine Parabolschwellenfunktion besser angenähert werden kann.
Würde man einen nicht erschöpfenden Ansatz wählen, einen zufällig ausgewählten Teil der Daten zurückhalten, die nichtparametrische Regression durchführen, plausible Funktionsformen für das Ergebnis interpretieren und dies einige (vom Menschen handhabbare) Male wiederholen und geistig plausible Funktionsformen zählen ?
Oder würde man einen erschöpfenden Ansatz wählen (z. B. LOOCV) und einen Algorithmus verwenden, um "alle Glättungen zu glätten" und diese glattesten Glättungen verwenden, um plausible funktionale Formen zu informieren? (Obwohl ich denke, dass LOOCV meiner Meinung nach sehr unwahrscheinlich ist, dass es zu sehr unterschiedlichen funktionalen Beziehungen kommt, da es unwahrscheinlich ist, dass eine funktionale Form einer ausreichend großen Stichprobe durch einen einzelnen Datenpunkt geändert wird.)
Meine Anwendungen umfassen normalerweise eine vom Menschen verwaltbare Anzahl von Prädiktorvariablen (etwa eine Handvoll bis einige Dutzend), aber meine Stichprobengrößen reichen von einigen Hundert bis zu einigen Hunderttausend. Mein Ziel ist es, ein intuitiv kommuniziertes und leicht zu übersetzendes Modell zu erstellen, das verwendet werden kann, um Vorhersagen von Personen mit anderen als meinen Datensätzen zu treffen, und die die Ergebnisvariablen nicht enthalten.
Referenzen in Antworten sind sehr willkommen.