1999 stellten Beyer et al. gefragt, wann ist "Nächster Nachbar" sinnvoll?
Gibt es seit 1999 bessere Möglichkeiten zur Analyse und Visualisierung der Auswirkung der Abstandsflachheit auf die NN-Suche?
Bietet [ein gegebener] Datensatz aussagekräftige Antworten auf das 1-NN-Problem? Das 10-NN-Problem? Das 100-NN-Problem?
Wie würden Sie Experten diese Frage heute angehen?
Änderungen Montag, 24. Januar:
Wie wäre es mit "Abstand Whiteout" als kürzere Bezeichnung für "Abstand Ebenheit mit zunehmender Dimension"?
Ein einfacher Weg, um "Entfernungs-Whiteout" zu betrachten, besteht darin, 2-NN auszuführen und Entfernungen zum nächsten Nachbarn und zum zweitnächsten Nachbarn zu zeichnen. Das folgende Diagramm zeigt dist 1 und dist 2 für einen Bereich von n-Clustern und Dimensionen von Monte Carlo. Dieses Beispiel zeigt einen ziemlich guten Abstandskontrast für die skalierte absolute Differenz | dist 2 - dist 1 |. (Die relativen Differenzen | dist 2 / dist 1 | → 1 als Dimension → ∞ werden also unbrauchbar.)
Ob in einem gegebenen Kontext absolute oder relative Fehler verwendet werden sollten, hängt natürlich vom "realen" vorhandenen Rauschen ab: schwierig.
Vorschlag: immer 2-NN ausführen; 2 Nachbarn sind nützlich, wenn sie in der Nähe sind, und nützlich, wenn nicht.