Ich verstehe, was "Fluch der Dimensionalität" ist, und ich habe einige hochdimensionale Optimierungsprobleme gelöst und kenne die Herausforderung der exponentiellen Möglichkeiten.
Ich bezweifle jedoch, dass der "Fluch der Dimensionalität" in den meisten Daten der realen Welt existiert (also lassen Sie uns Bilder oder Videos für einen Moment beiseite, ich denke über Daten wie demografische Kunden- und Kaufverhaltensdaten nach).
Wir können Daten mit Tausenden von Features erfassen, aber es ist weniger wahrscheinlich, dass die Features einen Raum mit Tausenden von Dimensionen vollständig abdecken können. Aus diesem Grund sind Techniken zur Dimensionsreduzierung so beliebt.
Mit anderen Worten, es ist sehr wahrscheinlich, dass die Daten nicht die exponentielle Informationsebene enthalten, dh, viele Features sind stark korreliert und viele Features erfüllen 80-20 Regeln (viele Instanzen haben den gleichen Wert).
In einem solchen Fall werden Methoden wie KNN meiner Meinung nach immer noch einigermaßen gut funktionieren. (In den meisten Büchern besagt der "Fluch der Dimensionalität", dass Dimension> 10 problematisch sein könnte. In ihren Demos verwenden sie eine gleichmäßige Verteilung in allen Dimensionen, in denen die Entropie wirklich hoch ist. Ich bezweifle, dass dies in der realen Welt jemals passieren wird.)
Meine persönliche Erfahrung mit realen Daten ist, dass der "Fluch der Dimensionalität" die Schablonenmethode (wie KNN) nicht zu sehr beeinflusst und in den meisten Fällen die Dimensionen ~ 100 immer noch funktionieren.
Trifft dies auf andere Menschen zu? (Ich habe 5 Jahre lang mit realen Daten in verschiedenen Branchen gearbeitet und nie beobachtet, dass "alle Distanzpaare ähnliche Werte haben", wie im Buch beschrieben.)