Antworten:
Die Abweichung ist die Differenz zwischen dem erwarteten Wert eines Schätzers und dem geschätzten wahren Wert. Zum Beispiel ist der Stichprobenmittelwert für eine einfache Zufallsstichprobe (SRS) ein unvoreingenommener Schätzer des Populationsmittelwerts, denn wenn Sie alle möglichen SRSs verwenden, um deren Mittelwerte zu ermitteln, erhalten Sie den Populationsmittelwert (für endlich) Populationen dies ist nur Algebra, um dies zu zeigen). Wenn wir jedoch einen Stichprobenmechanismus verwenden, der in irgendeiner Weise mit dem Wert zusammenhängt, kann der Mittelwert verzerrt werden.
Das sind auch einige Schätzer, die natürlich voreingenommen sind. Der getrimmte Mittelwert wird für eine verzerrte Population / Verteilung voreingenommen sein. Die Standardvarianz ist für SRS unverzerrt, wenn entweder der Populationsmittelwert mit dem Nenner oder der Stichprobenmittelwert mit dem Nenner n - 1 verwendet wird .
Hier ist ein einfaches Beispiel mit R: Wir generieren eine Reihe von Stichproben aus einer Normalen mit dem Mittelwert 0 und der Standardabweichung 1 und berechnen dann den durchschnittlichen Mittelwert, die Varianz und die Standardabweichung aus den Stichproben. Beachten Sie, wie nahe die Mittel- und Varianzmittelwerte an den wahren Werten liegen (Stichprobenfehler bedeuten, dass sie nicht exakt sind). Vergleichen Sie nun den Mittelwert sd, es handelt sich um einen voreingenommenen Schätzer (wenn auch nicht sehr voreingenommen).
> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121
In der Regression können wir durch schrittweise Regression voreingenommene Schätzer von Steigungen erhalten. Es ist wahrscheinlicher, dass eine Variable in einer schrittweisen Regression gehalten wird, wenn die geschätzte Steigung weiter von 0 entfernt ist, und es ist wahrscheinlicher, dass sie abfällt, wenn sie näher bei 0 liegt. Dies ist also eine verzerrte Abtastung, und die Steigungen im endgültigen Modell sind tendenziell weiter von 0 als die wahre Steigung. Techniken wie die Lasso- und Ridge-Regressionsverzerrung neigen sich zu 0, um der Auswahlverzerrung von 0 weg entgegenzuwirken.
Verzerrung bedeutet, dass der erwartete Wert des Schätzers nicht dem Populationsparameter entspricht.
Intuitiv in einer Regressionsanalyse würde dies bedeuten, dass die Schätzung eines der Parameter zu hoch oder zu niedrig ist. Gewöhnliche Regressionsschätzungen für kleinste Quadrate sind jedoch BLAU, was für die besten linearen unverzerrten Schätzer steht. Bei anderen Formen der Regression können die Parameterschätzungen verzerrt sein. Dies kann eine gute Idee sein, da es häufig einen Kompromiss zwischen Voreingenommenheit und Varianz gibt. Beispielsweise wird manchmal eine Gratregression verwendet, um die Varianz von Schätzungen bei Kollinearität zu verringern.
Ein einfaches Beispiel kann dies besser veranschaulichen, wenn auch nicht im Kontext der Regression. Angenommen, Sie wiegen 150 Pfund (überprüft auf einer Waage, die Sie in einem Korb und einen Stapel Gewichte in dem anderen Korb hat). Jetzt haben Sie zwei Personenwaagen. Sie wiegen sich jeweils fünfmal.
Skala 1 ergibt Gewichte von 152, 151, 151,5, 150,5 und 152.
Skala 2 ergibt Gewichte von 145, 155, 154, 146 und 150.
Skala 1 ist voreingenommen, weist jedoch eine geringere Varianz auf. Der Durchschnitt der Gewichte ist nicht Ihr wahres Gewicht. Skala 2 ist unvoreingenommen (der Durchschnitt liegt bei 150), weist jedoch eine viel höhere Varianz auf.
Welche Skala ist "besser"? Es hängt davon ab, was die Waage tun soll.
In der linearen Regressionsanalyse bezieht sich Verzerrung auf den Fehler, der durch Annäherung an ein reales Problem, das möglicherweise kompliziert ist, durch ein viel einfacheres Modell eingeführt wird. Einfach ausgedrückt, nehmen Sie ein einfaches lineares Modell wie y * = (a *) x + b * an, wobei das Geschäftsproblem wie im wirklichen Leben y = ax ^ 3 + bx ^ 2 + c sein könnte.
Es kann gesagt werden, dass der erwartete Test-MSE (Mean Squared Error) aus einem Regressionsproblem wie folgt zerlegt werden kann. E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Bias (f * (x0))] ^ 2 + Var (e)
f * -> angenommene funktionale Form für das lineare Regressionsmodell y0 -> ursprünglicher Antwortwert in den Testdaten x0 -> ursprünglicher Prädiktorwert in den Testdaten e -> irreduzibler Fehler Das Ziel ist also die Auswahl einer besten Methode, um ein Modell zu erhalten, das erzielt geringe Varianz und geringe Vorspannung.
Anmerkung: Eine Einführung in das statistische Lernen von Trevor Hastie & Robert Tibshirani bietet gute Einblicke in dieses Thema