Im Allgemeinen erschwert der Fluch der Dimensionalität das Durchsuchen eines Raums erheblich und beeinflusst die Mehrzahl der Algorithmen, die durch Partitionierung ihres Vektorraums "lernen". Je größer die Dimensionalität unseres Optimierungsproblems ist, desto mehr Daten benötigen wir, um den zu optimierenden Bereich auszufüllen.
Verallgemeinerte lineare Modelle
β^= ( X′X)- 1X′y
Entscheidungsbäume
Entscheidungsbäume leiden auch unter dem Fluch der Dimensionalität. Entscheidungsbäume unterteilen direkt den Abtastraum an jedem Knoten. Mit zunehmendem Abtastraum nehmen die Abstände zwischen den Datenpunkten zu, wodurch es sehr viel schwieriger wird, eine "gute" Aufteilung zu finden.
Zufällige Wälder
Zufällige Wälder verwenden eine Sammlung von Entscheidungsbäumen, um ihre Vorhersagen zu treffen. Anstatt jedoch alle Funktionen Ihres Problems zu verwenden, verwenden einzelne Bäume nur eine Teilmenge der Funktionen. Dies minimiert den Raum, über den jeder Baum optimiert, und kann dabei helfen, das Problem des Fluches der Dimensionalität zu bekämpfen.
Boosting-Algorithmen von Boosted Tree wie AdaBoost leiden unter dem Fluch der Dimensionalität und neigen dazu, zu überladen, wenn die Regularisierung nicht verwendet wird. Ich werde nicht weiter darauf eingehen, weil der Beitrag AdaBoost weniger oder anfälliger für Überanpassungen ist.
erklärt den Grund warum besser als ich konnte.
Neuronale Netze
Neuronale Netze sind in dem Sinne seltsam, dass sie beide vom Fluch der Dimensionalität abhängig von der Architektur, den Aktivierungen, der Tiefe usw. betroffen sind und nicht. Um den Fluch der Dimensionalität zu wiederholen, ist das Problem, dass eine große Anzahl von Punkten in der Höhe erforderlich ist Abmessungen, um einen Eingaberaum abzudecken. Eine Möglichkeit, tiefe neuronale Netze zu interpretieren, besteht darin, sich vorzustellen, dass alle Schichten die allerletzte Schicht als eine komplizierte Projektion einer hochdimensionalen Mannigfaltigkeit in eine niederdimensionale Mannigfaltigkeit ausführen, auf der dann die letzte Schicht klassifiziert wird. In einem Faltungsnetzwerk zur Klassifizierung, in dem die letzte Schicht eine Softmax-Schicht ist, können wir die Architektur so interpretieren, dass eine nichtlineare Projektion auf eine kleinere Dimension und dann eine multinomiale logistische Regression (die Softmax-Schicht) auf dieser Projektion durchgeführt wird. In gewisser Weise erlaubt uns die komprimierte Darstellung unserer Daten, den Fluch der Dimensionalität zu umgehen. Auch dies ist eine Interpretation, in Wirklichkeit wirkt sich der Fluch der Dimensionalität tatsächlich auf neuronale Netze aus, jedoch nicht auf der gleichen Ebene wie die oben beschriebenen Modelle.
SVM
SVM neigen dazu, aufgrund der übermäßigen Regularisierung, die auftritt, nicht so viel wie verallgemeinerte lineare Modelle zu überladen. Schauen Sie sich diesen Beitrag SVM, Überanpassung, Fluch der Dimensionalität für weitere Details an.
K-NN, K-Means
Sowohl K-mean als auch K-NN sind stark vom Fluch der Dimensionalität betroffen, da beide das L2-Quadrat-Abstandsmaß verwenden. Mit zunehmender Größe vergrößert sich auch der Abstand zwischen verschiedenen Datenpunkten. Aus diesem Grund benötigen Sie eine größere Anzahl von Punkten, um mehr Platz abzudecken, in der Hoffnung, dass die Entfernung aussagekräftiger wird.
Bitte fragen Sie nach Einzelheiten zu den Modellen, da meine Antworten ziemlich allgemein sind. Hoffe das hilft.