Dies wird sehr oft zitiert, wenn der Fluch der Dimensionalität erwähnt wird und geht
(rechte Formel genannt relativer Kontrast)
Das Ergebnis des Theorems zeigt, dass die Differenz zwischen dem maximalen und dem minimalen Abstand zu einem bestimmten Abfragepunkt nicht so schnell zunimmt wie der nächste Abstand zu einem Punkt im hochdimensionalen Raum. Dies macht eine Annäherungsabfrage bedeutungslos und instabil, da zwischen dem nächsten und dem am weitesten entfernten Nachbarn nur eine geringe Unterscheidung besteht.
Wenn man jedoch tatsächlich versucht, den relativen Kontrast für Stichprobenwerte zu berechnen, bedeutet dies, dass man einen Vektor mit sehr kleinen Werten nimmt und den Abstand zum Nullvektor berechnet und dasselbe für einen Vektor mit viel größeren Werten tut, und man vergleicht dann die Werte für Bei einer Dimension von 3 und einer Dimension, die Mal größer ist, wird man sehen, dass die Änderung zwar abnimmt, die Änderung jedoch so verschwindend gering ist, dass sie für die Anzahl der tatsächlich in der Praxis verwendeten Dimensionen irrelevant ist (oder kennt jemand jemanden, der arbeitet) Bei Daten mit Abmessungen ist die Größe von Grahams Zahl - was meiner Meinung nach die Größe ist, die erforderlich ist, damit der beschriebene Effekt das Papier tatsächlich relevant macht - glaube ich nicht.
Wie bereits erwähnt, wird dieser Satz sehr oft zitiert, um die Aussage zu stützen, dass die Messung der Nähe auf der Grundlage des euklidischen Raums eine schlechte Strategie in einem hochdimensionalen Raum ist, sagen die Autoren selbst, und dennoch findet das vorgeschlagene Verhalten nicht tatsächlich statt, was mich dazu veranlasst Ich denke, dieser Satz wurde irreführend verwendet.
Beispiel: mit d
der Dimension
a=np.ones((d,)) / 1e5
b=np.ones((d,)) * 1e5
dmin,dmax=norm(a), norm(b)
(dmax-dmin)/dmin
für d = 3
9999999999.0
für d = 1e8
9999999998.9996738
Und mit 1e1 anstelle von 1e5 (sagen wir, die Daten sind normalisiert)
für d = 3
99.0
für d = 1e8
98.999999999989527