Anzahl der Merkmale im Vergleich zur Anzahl der Beobachtungen


25

Gibt es irgendwelche Papiere / Bücher / Ideen über die Beziehung zwischen der Anzahl der Merkmale und der Anzahl der Beobachtungen, die man benötigt, um einen "robusten" Klassifikator zu trainieren?

Angenommen, ich habe 1000 Features und 10 Beobachtungen aus zwei Klassen als Trainingssatz und 10 andere Beobachtungen als Testsatz. Ich trainiere einen Klassifikator X und er gibt mir 90% Sensitivität und 90% Spezifität auf dem Testset. Angenommen, ich bin mit dieser Genauigkeit zufrieden und kann daher sagen, dass es sich um einen guten Klassifikator handelt. Andererseits habe ich eine Funktion von 1000 Variablen mit nur 10 Punkten angenähert, was vielleicht nicht sehr ... robust zu sein scheint?

Antworten:


20

Was Sie hier getroffen haben, ist der Fluch der Dimensionalität oder das p >> n-Problem (wobei p Prädiktoren und n Beobachtungen sind). Im Laufe der Jahre wurden viele Techniken entwickelt, um dieses Problem zu lösen. Sie können AIC oder BIC verwenden , um Modelle mit mehr Prädiktoren zu bestrafen. Sie können zufällige Mengen von Variablen auswählen und deren Wichtigkeit durch Kreuzvalidierung bewerten . Sie können die Gratregression , das Lasso oder das elastische Netz zur Regularisierung verwenden . Sie können auch eine Technik auswählen, z. B. eine Support-Vektor-Maschine oder eine zufällige Gesamtstruktur , die eine große Anzahl von Prädiktoren gut verarbeitet.

Ehrlich gesagt hängt die Lösung von der Art des Problems ab, das Sie lösen möchten.


9

+1-10,000001ichich, keine Menge an Trainingsdaten gibt Ihnen einen nützlichen Klassifikator. Letztendlich hängt die Anzahl der Stichproben, die Sie für eine bestimmte Anzahl von Features benötigen, davon ab, wie die Daten verteilt sind. Je mehr Features Sie haben, desto mehr Daten werden Sie im Allgemeinen benötigen, um die Verteilung der Daten angemessen zu beschreiben (Exponentiell in der Anzahl der Features, wenn Sie Pech haben - siehe den von Zach erwähnten Fluch der Dimensionalität).

Wenn Sie Regularisierung verwenden, ist der Generalisierungsfehler im Prinzip (obere Schranke) unabhängig von der Anzahl der Features (siehe Vapniks Arbeit auf der Support-Vektor-Maschine). Dies führt jedoch zu dem Problem, einen guten Wert für den Regularisierungsparameter zu finden (eine Kreuzvalidierung ist praktisch).


9

Sie sind wahrscheinlich überfordert von der klassischen Modellierung, die für die paradoxen Probleme der Runge anfällig ist und daher eine gewisse Sparsamkeit bei der Nachbearbeitung erfordert.
Beim maschinellen Lernen ist die Idee, Robustheit als Ziel der Modelloptimierung einzubeziehen, jedoch nur der Kern des gesamten Bereichs (häufig ausgedrückt als Genauigkeit bei unsichtbaren Daten). Also, solange Sie wissen, dass Ihr Modell gut funktioniert (zum Beispiel aus dem Lebenslauf), gibt es wahrscheinlich keinen Grund, sich darum zu kümmern.

pn


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.