Die Antwort lautet Nein , da Verzerrung und Varianz Attribute von Modellparametern sind und nicht die Daten, mit denen sie geschätzt werden. Es gibt eine teilweise Ausnahme von dieser Aussage, die sich auf Verzerrung und Varianz bezieht, die (ha!) Durch den Prädiktorraum variieren; mehr dazu weiter unten. Beachten Sie, dass dies absolut nichts damit zu tun hat, eine "wahre" Funktion zu kennen, die die Prädiktoren und Antwortvariablen in Beziehung setzt.
Betrachten Sie die Schätzung von in einer linearen Regression, , wobei eine Matrix von Prädiktoren ist, ein Vektor von Parameterschätzungen ist. und ist ein Vektor von Antworten. Nehmen wir aus Gründen der Argumentation an, dass wir eine unendliche Anzahl von Daten haben, aus denen wir ziehen können (dies ist übrigens nicht völlig lächerlich - wenn wir aktiv Daten aus einem physischen Prozess aufzeichnen würden, könnten wir Prädiktor- und Antwortdaten mit einer schnellen Geschwindigkeit aufzeichnen und erfüllt damit praktisch diese Annahme). Wir zeichnen also Beobachtungen, die jeweils aus einem einzelnen Antwortwert und einem Wert für jeden der Werte bestehenββ^=(XTX)−1XTYXN×Pβ^P×1YN×1NP Prädiktoren. Wir berechnen dann unsere Schätzung von und zeichnen die Werte auf. Nehmen wir dann diesen gesamten Prozess und wiederholen ihn Mal, wobei jedes Mal unabhängige Ziehungen aus der Population vorgenommen werden. Wir werden Schätzungen von über die wir die Varianz jedes Elements im Parametervektor berechnen können. Es ist zu beachten, dass die Varianz dieser Parameterschätzungen umgekehrt proportional zu und proportional zu , unter der Annahme einer Orthogonalität der Prädiktoren.β^NiterNNiterβ^NP
Die Vorspannung jedes Parameters kann auf ähnliche Weise geschätzt werden. Obwohl wir möglicherweise keinen Zugriff auf die Funktion "true" haben, nehmen wir an, dass wir eine beliebig große Anzahl von Draws aus der Population können, um zu berechnen , das als Proxy für den Parameterwert "true" dient . Wir gehen davon aus, dass dies eine unvoreingenommene Schätzung ist (gewöhnliche kleinste Quadrate) und dass die Anzahl der verwendeten Beobachtungen ausreichend groß war, so dass die Varianz dieser Schätzung vernachlässigbar ist. Für jeden der Parameter berechnen wir , wobei von bis . Wir nehmen den Durchschnitt dieser Unterschiede als Schätzung der Abweichung im entsprechenden Parameter.β^bestPβ^bestj−β^jj1Niter
Es gibt entsprechende Möglichkeiten, Verzerrung und Varianz mit den Daten selbst in Beziehung zu setzen, diese sind jedoch etwas komplizierter. Wie Sie sehen können, können Bias und Varianz für lineare Modelle geschätzt werden, Sie benötigen jedoch eine ganze Reihe von Hold-out-Daten. Ein heimtückischeres Problem ist die Tatsache, dass Ihre Analysen, sobald Sie mit einem festen Datensatz arbeiten, durch Ihre persönliche Varianz verschmutzt werden , da Sie bereits begonnen haben, durch den Garten der Gabelpfade zu wandern, und es keine Möglichkeit gibt, zu wissen, wie das geht würde außerhalb der Stichprobe replizieren (es sei denn, Sie haben gerade ein einzelnes Modell erstellt und diese Analyse ausgeführt und sich verpflichtet, es danach in Ruhe zu lassen).
In Bezug auf die Datenpunkte selbst ist die richtigste (und trivialste) Antwort, dass es einen Unterschied zwischen undYY^benötigen Sie ein komplexeres Modell (vorausgesetzt, Sie können alle relevanten Prädiktoren korrekt identifizieren; dies ist nicht möglich). Ohne auf eine langweilige Abhandlung über die philosophische Natur des "Irrtums" einzugehen, ist das Fazit, dass etwas passiert ist, das dazu geführt hat, dass Ihr Modell seine Marke verfehlt hat. Das Problem ist, dass das Hinzufügen von Komplexität die Varianz erhöht, was wahrscheinlich dazu führt, dass die Markierung an anderen Datenpunkten verfehlt wird. Daher ist es wahrscheinlich kein fruchtbares Unterfangen, sich über die Fehlerzuordnung auf der Ebene der einzelnen Datenpunkte Gedanken zu machen. Die Ausnahme (im ersten Absatz erwähnt) ergibt sich aus der Tatsache, dass Bias und Varianz tatsächlich Funktionen der Prädiktoren selbst sind, sodass Sie möglicherweise eine große Bias in einem Teil des Prädiktorraums und eine kleinere Bias in einem anderen Teil haben (dasselbe gilt für die Varianz).Y−Y^viele Male (wobei und wurde nicht auf Basis der geschätzten ) und Plotten seine Vorspannung (Mittelwert) und die Varianz als eine Funktion der Werte von . Ich denke jedoch, dass dies ein ziemlich spezialisiertes Anliegen ist.Y^=Xβ^β^ YX