Hochdimensionale Daten: Was sind nützliche Techniken?

14

Aufgrund verschiedener Flüche der Dimensionalität verschlechtern sich Genauigkeit und Geschwindigkeit vieler gängiger Vorhersagetechniken bei hochdimensionalen Daten. Welche der nützlichsten Techniken / Tricks / Heuristiken helfen dabei, hochdimensionale Daten effektiv zu verarbeiten? Beispielsweise,

Funktionieren bestimmte statistische / Modellierungsmethoden bei hochdimensionalen Datensätzen gut?
Können wir die Leistung unserer Vorhersagemodelle für hochdimensionale Daten verbessern, indem wir bestimmte (die alternative Begriffe der Entfernung definieren) oder Kernel (die alternative Begriffe des Punktprodukts definieren) verwenden?
Was sind die nützlichsten Techniken zur Dimensionsreduzierung für hochdimensionale Daten?

machine-learning statistics dimensionality-reduction

— ASX
quelle

10

Dies ist eine sehr breite Frage, die ich für unmöglich halte, in einer einzigen Antwort umfassend abzudecken . Daher halte ich es für sinnvoller, einige Hinweise auf relevante Antworten und / oder Ressourcen zu geben. Genau das werde ich tun, indem ich die folgenden Informationen und Gedanken von mir zur Verfügung stelle.

Zunächst möchte ich das hervorragende und umfassende Tutorial zur Dimensionsreduzierung von Burges (2009) von Microsoft Research erwähnen . Er geht in der gesamten Monographie häufig auf hochdimensionale Aspekte von Daten ein. Diese Arbeit, in der Dimensionsreduktion als Dimensionsreduktion bezeichnet wird , stellt eine theoretische Einführung in das Problem dar , schlägt eine Taxonomie von Dimensionsreduktionsmethoden vor, die aus projektiven Methoden und vielfältigen Modellierungsmethoden besteht , und gibt einen Überblick über mehrere Methoden in jeder Kategorie.

Zu den untersuchten " Projective- Pursuit" -Verfahren gehören die unabhängige Komponentenanalyse (ICA) , die Hauptkomponentenanalyse (PCA) und ihre Variationen, wie Kernel-PCA und probabilistische PCA , die kanonische Korrelationsanalyse (CCA) und ihre Kernel-CCA- Variation, die lineare Diskriminanzanalyse (LDA) ) , Kernel Dimension Reduction (KDR) und einige andere. Zu den untersuchten vielfältigen Methoden gehören die multidimensionale Skalierung (MDS) und ihre wegweisende MDS- Variation, Isomap , Local Linear Embeddingund grafische Methoden wie Laplace-Eigenkarten und Spektralclustering . Ich liste hier die meisten der getesteten Methoden auf, falls Sie nicht auf die Originalpublikation zugreifen können, entweder online (Link oben) oder offline (Referenzen).

Es gibt eine Einschränkung für den Begriff "umfassend", den ich auf die oben genannte Arbeit angewendet habe. Dies ist zwar ziemlich umfassend, aber relativ, da einige der Ansätze zur Dimensionsreduktion in der Monographie nicht erörtert werden, insbesondere diejenigen, die sich auf nicht beobachtbare (latente) Variablen konzentrieren . Einige von ihnen werden jedoch mit Verweisen auf eine andere Quelle erwähnt - ein Buch über Dimensionsreduktion.

Ich werde nun kurz auf einige engere Aspekte des betreffenden Themas eingehen, indem ich mich auf meine relevanten oder verwandten Antworten beziehe. In Bezug auf die Annäherung der nächsten Nachbarn (NN) an hochdimensionale Daten lesen Sie bitte meine Antworten hier (ich empfehle insbesondere, das Papier Nr. 4 in meiner Liste zu überprüfen). Der Fluch der Dimensionalität hat unter anderem zur Folge, dass hochdimensionale Daten häufig spärlich sind . In Anbetracht dieser Tatsache glaube ich, dass meine relevanten Antworten hier und hier zu Regression und PCA für spärliche und hochdimensionale Daten hilfreich sein könnten.

Verweise

Burges, CJC (2010). Dimensionsreduktion: Eine Führung. Foundations and Trends® in Machine Learning, 2 (4), 275-365. doi: 10.1561 / 2200000002

— Aleksandr Blekh
quelle

0

Aleksander hat eine sehr umfassende Antwort gegeben, aber es gibt einige, die sehr weit verbreitet sind:

Für die Dimensionsreduktion wird PCA verwendet. Dies führt jedoch nur eine lineare Transformation durch, und für die nichtlineare Dimensionsreduktion ist das vielfältige Lernen genau das, wonach Sie suchen.

Das Projizieren von Daten mit niedrigeren Dimensionen in höhere Dimensionen kann mithilfe von Kerneln erfolgen. Normalerweise tun Sie dies, wenn Ihr Klassifikator keine lineare Trennebene in der aktuellen Dimension finden kann, aber eine lineare Hyperebene finden kann, die die Klassen in einer höheren Dimension trennt. Kernel sind in SVMs weit verbreitet.

— RAM
quelle