Ist es möglich, angepasste Residuen nach Anpassen eines linearen Modells in Bias und Varianz zu zerlegen?

9

Ich möchte Datenpunkte so klassifizieren, dass sie entweder ein komplexeres Modell oder kein komplexeres Modell benötigen. Mein derzeitiger Gedanke ist es, alle Daten an ein einfaches lineares Modell anzupassen und die Größe der Residuen zu beobachten, um diese Klassifizierung vorzunehmen. Ich habe dann etwas über die Verzerrungs- und Varianzbeiträge zum Fehler gelesen und festgestellt, dass es eine bessere Maßnahme sein könnte, wenn ich die Verzerrung direkt berechnen könnte, als mit dem Gesamtfehler (Residuum oder standardisiertes Residuum) zu arbeiten.

Ist es möglich, die Verzerrung direkt mit einem linearen Modell abzuschätzen? Mit oder ohne Testdaten? Würde hier eine Kreuzvalidierung helfen?

Wenn nicht, kann man ein gemitteltes Bootstrapping-Ensemble linearer Modelle (ich denke, es heißt Bagging) verwenden, um die Verzerrung zu approximieren?

— kmace
quelle

1

Vielleicht sind diese äquivalent (Residuum vs Bias), weil die Varianz konstant ist?

— kmace

1

Könnten Sie mit der ersten Aussage Ihres Beitrags klarstellen, was Sie meinen? Dabei möchten Sie "Datenpunkte" (einzelne Beobachtungen?) Als "komplexere mehr oder nicht komplexere Modelle" klassifizieren. Mir ist nicht klar, was dies genau bedeutet (obwohl es sich wie eine Ausreißererkennung oder ein anderes Problem mit der Anpassungsgüte anhört) oder wie es sich auf die späteren Fragen zur Schätzung der Verzerrung bezieht.

— Ryan Simmons

Ich meine, dass es eine Teilmenge meiner Stichproben gibt, die eine andere Zielfunktion . Nehmen wir also an, dass für die meisten Stichproben die wahre Zielfunktion wie folgt lautet: und für eine Minderheit der Stichproben lautet die Zielfunktion: . Wenn ich in meinem Modell keine Interaktionsterme zulasse (mein Hypothesensatz enthält sie nicht), sollte ich alle Daten

f (x)

$f(x)$

f_{1} (x) = 3 x_{1} + 2 x_{2}

$f_1(x) = 3x_1 + 2x_2$

f_{2} (x) = 3 x_{1} + 2 x_{2} + x_{1} x_{2}

$f_2(x) = 3x_1 + 2x_2 + x_1x_2$

f_{2}

$f_2$

— anpassen und feststellen

2

Wie Ryan bereits betont hat, ist die Frage nicht sehr klar gestellt. Ihr Kommentar weist in die Richtung "Anpassungsgüte". Aber es ist unmöglich, dies umzukehren. Sie scheinen ein Vorkonzept im Sinn zu haben, das irreführend ist. Sie können viele Dinge berechnen, wenn Sie ein Modell und einige Daten kombinieren und Modellparameter bestimmen. Da Sie jedoch immer mit einem statistisch begrenzten Datensatz beginnen, gibt es keine Wahrheit, die Sie durch härteres Graben oder mit mehr Schaufeln aufdecken können. Keine Methode, die Sie anwenden, wird die Wahrheit liefern, aber sie könnte darauf hinweisen, wie falsch Sie sein können.

— Cherub

12

Sie können Fehler (Residuen) im Allgemeinen nicht in Bias- und Varianzkomponenten zerlegen. Der einfache Grund ist, dass Sie im Allgemeinen die wahre Funktion nicht kennen. Denken Sie daran, dass und dass das Unbekannte ist, das Sie schätzen möchten. $bias(\hat f(x)) = E[\hat f(x) - f(x)],$ $f(x)$

Was ist mit Bootstrapping? Es ist möglich, die Verzerrung eines Schätzers durch Bootstrapping zu schätzen, aber es geht nicht um Bagging-Modelle, und ich glaube nicht, dass es eine Möglichkeit gibt, den Bootstrap zu verwenden, um die Verzerrung in zu bewerten da das Bootstrapping noch besteht basierend auf einer Vorstellung von der Wahrheit und kann trotz der Ursprünge ihres Namens nichts aus dem Nichts erschaffen. $\hat f(x),$

Zur Verdeutlichung: Die Bootstrap-Schätzung der Verzerrung im Schätzer ist $\hat \theta$

{\hat{b i a s}}_{B} = {\hat{θ}}^{*} (\cdot) - \hat{θ},

$\widehat{bias}_B = \hat\theta^*(\cdot) - \hat \theta,$

Dabei ist der Durchschnitt Ihrer Statistik, die für Bootstrap-Beispiele berechnet wurde . Dieser Prozess emuliert den der Stichprobe aus einer bestimmten Population und der Berechnung Ihrer interessierenden Menge. Dies funktioniert nur, wenn im Prinzip direkt aus der Population berechnet werden kann. Die Bootstrap-Schätzung der Verzerrung bewertet, ob die Plug-In-Schätzung - dh nur die gleiche Berechnung für eine Stichprobe anstelle der Grundgesamtheit - verzerrt ist. $\hat\theta^*(\cdot)$ $B$ $\hat\theta$

Wenn Sie nur Ihre Residuen verwenden möchten, um die Modellanpassung zu bewerten, ist dies durchaus möglich. Wenn Sie, wie Sie in den Kommentaren sagen, die verschachtelten Modelle und , können Sie mit ANOVA prüfen, ob das größere Modell die Summe von erheblich reduziert quadratischer Fehler. $f_1(x) = 3x_1 + 2x_2$ $f_2(x) = 3x_1 + 2x_2 + x_1x_2$

— einar
quelle

8

Eine Situation, in der Sie eine Schätzung der Zerlegung erhalten können, besteht darin, dass Sie Punkte repliziert haben (dh mehr als eine Antwort für verschiedene Kombinationen der Prädiktoren haben).

Dies ist hauptsächlich auf Situationen beschränkt, in denen Sie die Kontrolle über die unabhängigen Variablen haben (z. B. in Experimenten) oder in denen sie alle diskret sind (wenn nicht zu viele x-Kombinationen vorhanden sind und Sie eine ausreichend große Stichprobe für x-Wert-Kombinationen entnehmen können mehrere Punkte bekommen).

Die replizierten Punkte bieten Ihnen eine modellfreie Möglichkeit, den bedingten Mittelwert zu schätzen. In solchen Situationen besteht die Möglichkeit, die verbleibende Quadratsumme in reine Fehler und mangelnde Anpassung zu zerlegen , aber Sie haben auch direkte (wenn auch notwendigerweise verrauschte) Schätzungen der Verzerrung bei jeder Kombination von x-Werten, für die Sie mehrere Antworten haben.

— Glen_b - Monica neu starten
quelle

Ich denke nicht, dass das funktionieren wird. Stellen Sie sich den Fall vor, in dem Sie eine wichtige erklärende Variable in Ihrem Modell weggelassen haben. Wenn diese erklärende Variable orthogonal zu allen anderen erklärenden Variablen ist, kann ihre Wirkung (oder ihr Fehlen) meiner Meinung nach mit dieser oder einer anderen in anderen Antworten vorgeschlagenen Methode nicht festgestellt werden.

— Cagdas Ozgenc

2

@Cagdas Es funktioniert nicht unter allen Umständen; es erkennt Verzerrungen von falsch spezifizierten Modellformen, wobei nicht unbedingt Prädiktoren fehlen

— Glen_b - Monica

1

In dem etwas komplexeren Bereich der Kalman-Filterung testen Menschen manchmal die Residuen (beobachtete Messungen minus vorhergesagte Messungen), um nach Modelländerungen oder Fehlerbedingungen zu suchen. Wenn das Modell perfekt ist und das Rauschen Gauß'sch ist, sollten die Residuen theoretisch auch Gauß'sch mit dem Mittelwert Null sein und auch mit einer vorhergesagten Kovarianzmatrix übereinstimmen. Menschen können mit sequentiellen Tests wie einem Sequential Probability Ratio Test (SPRT) auf einen Mittelwert ungleich Null testen. Ihre Situation ist anders, weil Sie eher einen festen Datenstapel als einen stetigen Strom neuer Daten haben. Die Grundidee, die Stichprobenverteilung der Residuen zu betrachten, könnte jedoch weiterhin zutreffen.

Sie geben an, dass sich der von Ihnen modellierte Prozess gelegentlich ändern kann. Um mehr aus Ihren Daten herauszuholen, müssen Sie wahrscheinlich andere Faktoren identifizieren, die diese Änderung verursachen. Betrachten Sie zwei Möglichkeiten: (1) Möglicherweise benötigen Sie lokale Modelle anstelle eines globalen Modells, z. B. weil nur in einigen Betriebsregionen schwerwiegende Nichtlinearitäten vorliegen, oder (2) möglicherweise ändert sich der Prozess im Laufe der Zeit.

Wenn es sich um ein physisches System handelt und Ihre Proben keine großen Zeitintervalle voneinander entfernt sind, können diese Prozessänderungen über erhebliche Zeiträume bestehen bleiben. Das heißt, echte Modellparameter können sich gelegentlich ändern und für einen bestimmten Zeitraum bestehen bleiben. Wenn Ihre Daten mit einem Zeitstempel versehen sind, können Sie die Residuen im Laufe der Zeit betrachten. Angenommen, Sie haben y = Ax + b unter Verwendung aller Ihrer Daten angepasst und A und b gefunden. Gehen Sie dann zurück und testen Sie die Restsequenz r [k] = y [k] - Ax [k] - b, wobei k ein Index ist, der den Zeiten in sequentieller Reihenfolge entspricht. Suchen Sie nach Mustern im Zeitverlauf, z. B. nach Zeiträumen, in denen zusammenfassende Statistiken wie || r [k] || vorliegen bleibt für einige Zeit höher als normal. Sequentielle Tests sind am empfindlichsten für die Erkennung von Fehlern mit anhaltender Vorspannung, wie z. B. SPRT oder sogar CUSUM für einzelne Vektorindizes.

— g
quelle

1

Die Antwort lautet Nein , da Verzerrung und Varianz Attribute von Modellparametern sind und nicht die Daten, mit denen sie geschätzt werden. Es gibt eine teilweise Ausnahme von dieser Aussage, die sich auf Verzerrung und Varianz bezieht, die (ha!) Durch den Prädiktorraum variieren; mehr dazu weiter unten. Beachten Sie, dass dies absolut nichts damit zu tun hat, eine "wahre" Funktion zu kennen, die die Prädiktoren und Antwortvariablen in Beziehung setzt.

Betrachten Sie die Schätzung von in einer linearen Regression, , wobei eine Matrix von Prädiktoren ist, ein Vektor von Parameterschätzungen ist. und ist ein Vektor von Antworten. Nehmen wir aus Gründen der Argumentation an, dass wir eine unendliche Anzahl von Daten haben, aus denen wir ziehen können (dies ist übrigens nicht völlig lächerlich - wenn wir aktiv Daten aus einem physischen Prozess aufzeichnen würden, könnten wir Prädiktor- und Antwortdaten mit einer schnellen Geschwindigkeit aufzeichnen und erfüllt damit praktisch diese Annahme). Wir zeichnen also Beobachtungen, die jeweils aus einem einzelnen Antwortwert und einem Wert für jeden der Werte bestehen $β$ $\hatβ=(X^TX)^{-1}X^TY$ $X$ $N×P$ $\hatβ$ $P×1$ $Y$ $N×1$ $N$ $P$ Prädiktoren. Wir berechnen dann unsere Schätzung von und zeichnen die Werte auf. Nehmen wir dann diesen gesamten Prozess und wiederholen ihn Mal, wobei jedes Mal unabhängige Ziehungen aus der Population vorgenommen werden. Wir werden Schätzungen von über die wir die Varianz jedes Elements im Parametervektor berechnen können. Es ist zu beachten, dass die Varianz dieser Parameterschätzungen umgekehrt proportional zu und proportional zu , unter der Annahme einer Orthogonalität der Prädiktoren. $\hatβ$ $N_{iter}$ $N$ $N_{iter}$ $\hatβ$ $N$ $P$

Die Vorspannung jedes Parameters kann auf ähnliche Weise geschätzt werden. Obwohl wir möglicherweise keinen Zugriff auf die Funktion "true" haben, nehmen wir an, dass wir eine beliebig große Anzahl von Draws aus der Population können, um zu berechnen , das als Proxy für den Parameterwert "true" dient . Wir gehen davon aus, dass dies eine unvoreingenommene Schätzung ist (gewöhnliche kleinste Quadrate) und dass die Anzahl der verwendeten Beobachtungen ausreichend groß war, so dass die Varianz dieser Schätzung vernachlässigbar ist. Für jeden der Parameter berechnen wir , wobei von bis . Wir nehmen den Durchschnitt dieser Unterschiede als Schätzung der Abweichung im entsprechenden Parameter. $\hatβ_{best}$ $P$ $\hatβ_{best_j}-\hatβ_j$ $j$ $1$ $N_{iter}$

Es gibt entsprechende Möglichkeiten, Verzerrung und Varianz mit den Daten selbst in Beziehung zu setzen, diese sind jedoch etwas komplizierter. Wie Sie sehen können, können Bias und Varianz für lineare Modelle geschätzt werden, Sie benötigen jedoch eine ganze Reihe von Hold-out-Daten. Ein heimtückischeres Problem ist die Tatsache, dass Ihre Analysen, sobald Sie mit einem festen Datensatz arbeiten, durch Ihre persönliche Varianz verschmutzt werden , da Sie bereits begonnen haben, durch den Garten der Gabelpfade zu wandern, und es keine Möglichkeit gibt, zu wissen, wie das geht würde außerhalb der Stichprobe replizieren (es sei denn, Sie haben gerade ein einzelnes Modell erstellt und diese Analyse ausgeführt und sich verpflichtet, es danach in Ruhe zu lassen).

In Bezug auf die Datenpunkte selbst ist die richtigste (und trivialste) Antwort, dass es einen Unterschied zwischen und $Y$ $\hat{Y}$ benötigen Sie ein komplexeres Modell (vorausgesetzt, Sie können alle relevanten Prädiktoren korrekt identifizieren; dies ist nicht möglich). Ohne auf eine langweilige Abhandlung über die philosophische Natur des "Irrtums" einzugehen, ist das Fazit, dass etwas passiert ist, das dazu geführt hat, dass Ihr Modell seine Marke verfehlt hat. Das Problem ist, dass das Hinzufügen von Komplexität die Varianz erhöht, was wahrscheinlich dazu führt, dass die Markierung an anderen Datenpunkten verfehlt wird. Daher ist es wahrscheinlich kein fruchtbares Unterfangen, sich über die Fehlerzuordnung auf der Ebene der einzelnen Datenpunkte Gedanken zu machen. Die Ausnahme (im ersten Absatz erwähnt) ergibt sich aus der Tatsache, dass Bias und Varianz tatsächlich Funktionen der Prädiktoren selbst sind, sodass Sie möglicherweise eine große Bias in einem Teil des Prädiktorraums und eine kleinere Bias in einem anderen Teil haben (dasselbe gilt für die Varianz). $Y-\hat{Y}$ viele Male (wobei und wurde nicht auf Basis der geschätzten ) und Plotten seine Vorspannung (Mittelwert) und die Varianz als eine Funktion der Werte von . Ich denke jedoch, dass dies ein ziemlich spezialisiertes Anliegen ist. $\hat{Y}=X\hatβ$ $\hatβ$ $Y$ $X$

— Josh
quelle