Einige klassische Beobachtungen zu Entfernungen in hochdimensionalen Daten:
- K. Beyer, J. Goldstein, R. Ramakrishnan und U. Shaft, ICDT 1999: "Wann sind die nächsten Nachbarn sinnvoll?"
- CC Aggarwal, A. Hinneburg und DA Keim, ICDT 2001: "Über das überraschende Verhalten von Distanzmetriken im hochdimensionalen Raum"
Ein paar neuere Untersuchungen zu diesem Thema, bei denen Nachbarn und Hubness gemeinsam genutzt werden:
- ME Houle, H.-P. Kriegel, P. Kröger, E. Schubert und A. Zimek, SSDBM 2010: "Können Entfernungen zwischen geteilten Nachbarn den Fluch der Dimensionalität besiegen?"
- T. Bernecker, ME Houle, H.-P. Kriegel, P. Kröger, M. Renz, E. Schubert und A. Zimek, SSTD 2011: "Rangfolge der Ähnlichkeitsqualität in Zeitreihen"
- N. Tomašev, M. Radovanović, D. Mladenić und M. Ivanović. Adv. KDDM 2011: "Die Rolle von Hubness beim Clustering hochdimensionaler Daten"
- Erinnere dich nicht an die anderen, suche nach "Hubness", das war ihre hochdimensionale Beobachtung
Diese sind interessant, da sie auf einige populäre Missverständnisse über den Fluch der Dimensionalität hinweisen . Im Wesentlichen zeigen sie, dass die theoretischen Ergebnisse - bei denen davon ausgegangen wird, dass die Daten iid sind - für Daten mit mehr als einer Verteilung im Allgemeinen nicht zutreffen. Der Fluch führt zu numerischen Problemen und einem Verlust der Diskriminierung innerhalb einer einzelnen Verteilung, während es noch einfacher sein kann , zwei gut getrennte Verteilungen zu unterscheiden.
Einiges davon sollte ziemlich offensichtlich sein. Angenommen, Sie haben Objekte, die in jeder Dimension iid sind, und in jeder Dimension eine andere Gruppe von Objekten, die iid sind. Der Unterschied zwischen den Objekten aus zwei unterschiedlichen Sätzen wird immer Größen größer als ein Abstand innerhalb eines einzigen Satzes, und das Problem wird auch erhalten mit zunehmender Dimensionalität leichter .EINich∼ N.( 0 ; 1 )B.ich∼ N.( 100 ; 1 )
Ich empfehle, diese Arbeit von Houle et al. Zu lesen, vor allem, weil sie zeigt, dass Sie die Dinge möglicherweise etwas zu einfach machen, wenn Sie behaupten, "diese Daten sind hochdimensional und aufgrund des Fluches der Dimensionalität können sie nicht analysiert werden". Trotzdem ist das eine Linie, die überall verwendet wird. "Unser Algorithmus funktioniert aufgrund des Fluches der Dimensionalität nur für niedrigdimensionale Daten." "Unser Index funktioniert aufgrund des Fluches der Dimensionalität nur für bis zu 10 Dimensionen." Yadda yadda yadda. Viele dieser Aussagen zeigen anscheinend nur, dass solche Autoren nicht verstanden haben, was bei hoher Dimensionalität in ihren Daten und Algorithmen passiert (oder eine Entschuldigung brauchten). Houle et al. Lösen Sie das Rätsel nicht vollständig (noch? Dies ist ziemlich neu), aber sie überdenken zumindest viele der populären Aussagen.
Wenn hohe Dimensionalität ein so großes Problem wäre, wie kommt es dann, dass Menschen im Text Mining gerne Dimensionalitäten in der Größenordnung von 10000-100000 verwenden, während Menschen in anderen Bereichen bei nur 10 Dimensionen aufgeben?!?
Was den zweiten Teil Ihrer Frage betrifft : Die Kosinusähnlichkeit scheint weniger unter der Dimensionalität zu leiden . Abgesehen davon sollten klassische -Norms in Ordnung sein , solange Sie verschiedene Verteilungen unterscheiden, die numerische Genauigkeit steuern und sich nicht auf von Hand ausgewählte Schwellenwerte verlassen möchten (da Sie diese möglicherweise mit vielen signifikanten Ziffern angeben müssen).L.p
Allerdings Cosinus ist auch vom Fluch der Dimensionalität beeinflusst , wie in diskutiert:
- M. Radovanović, A. Nanopoulos und M. Ivanović, SIGIR 2010. "Über die Existenz hartnäckiger Ergebnisse in Vektorraummodellen."