Meine Frage bezieht sich auf den 1-nächsten Nachbarn-Klassifikator und auf eine Aussage, die in dem ausgezeichneten Buch Die Elemente des statistischen Lernens von Hastie, Tibshirani und Friedman gemacht wurde. Die Aussage lautet (S. 465, Abschnitt 13.3):
"Da nur der Trainingspunkt verwendet wird, der dem Abfragepunkt am nächsten liegt, ist die Abweichung der Schätzung des nächsten Nachbarn oft gering, aber die Varianz ist hoch."
Das Buch ist unter http://www-stat.stanford.edu/~tibs/ElemStatLearn/download.html verfügbar
Für den Anfang können wir definieren, was Voreingenommenheit und Varianz sind. Aus der Frage "Wie kann man die Dimension vergrößern, die Varianz erhöhen, ohne das Bi zu erhöhen" haben wir Folgendes:
"Erstens ist die Vorspannung eines Klassifikators die Diskrepanz zwischen seiner gemittelten geschätzten und wahren Funktion, während die Varianz eines Klassifikators die erwartete Abweichung der geschätzten Vorhersagefunktion von seinem Durchschnittswert ist (dh wie abhängig der Klassifikator vom Zufall ist Probenahme im Trainingssatz).
Daher weist das Vorhandensein einer Verzerrung darauf hin, dass mit dem Modell grundsätzlich etwas nicht stimmt, während die Varianz ebenfalls schlecht ist, aber ein Modell mit hoher Varianz könnte zumindest im Durchschnitt eine gute Vorhersage treffen. "
Könnte jemand bitte erklären, warum die Varianz hoch und die Vorspannung für den 1-nächsten Nachbarn-Klassifikator niedrig ist?