In Elements of Statistical Learning wird ein Problem eingeführt, um Probleme mit k-nn in hochdimensionalen Räumen hervorzuheben. Es gibt Datenpunkte, die gleichmäßig in einer dimensionalen Einheitskugel verteilt sind.
Der mittlere Abstand vom Ursprung zum nächsten Datenpunkt wird durch den Ausdruck angegeben:
Wenn , zerfällt die Formel auf den halben Radius des Balls, und ich kann sehen, wie sich der nächstgelegene Punkt der Grenze als nähert , wodurch die Intuition hinter knn in hohen Dimensionen zusammenbricht. Aber ich kann nicht verstehen, warum die Formel von N abhängt. Könnte jemand bitte klarstellen?
Das Buch geht auch weiter auf dieses Problem ein, indem es erklärt: "... die Vorhersage ist in der Nähe der Ränder der Trainingsprobe viel schwieriger. Man muss von benachbarten Probenpunkten extrapolieren, anstatt zwischen ihnen zu interpolieren." Dies scheint eine tiefgreifende Aussage zu sein, aber ich kann nicht verstehen, was es bedeutet. Könnte jemand umformulieren?