Merkmalsextraktion aus einem Streudiagramm


7

Angenommen, ich habe ein Streudiagramm wie dieses:

Geben Sie hier die Bildbeschreibung ein

Da ich viele Streudiagramme wie dieses habe, möchte ich eine Feature-Transformation durchführen, dh einen Squash (x,y)in einem einzelnen Term, der in ein NN eingegeben wird. Welche Transformation wie x/yoder (x/y)^2eine andere Transformation für diese Art von Diagrammen am besten geeignet ist, dh die Trennung stärker erhöhen, während sie auf einen einzelnen Term reduziert wird.

Antworten:


5

Wie @David Masip erwähnte, wäre die Hauptkomponentenanalyse hier eine gute Methode. Im Wesentlichen ist PCA eine Methode, mit der eine Abbildung zwischen einem hochdimensionalen Raum und einem niederdimensionalen Raum gefunden wird, während die Daten so stark wie möglich variiert werden - perfekt für die Dimensionsreduzierung hochdimensionaler Daten.

Sie erwähnen jedoch, dass Sie diese reduzierten Daten zum Trainieren eines neuronalen Netzwerkmodells verwenden möchten. Es kann am besten sein, zuerst das neuronale Netzmodell zu trainieren und zu sehen, wie gut es funktioniert, da neuronale Netze normalerweise sehr gut darin sind, Interaktionen zwischen Merkmalen sowie anderen verborgenen Strukturen in den Daten zu identifizieren. Wenn die Leistung nicht gut ist, besteht ein Ansatz zur Verbesserung der Leistung möglicherweise in der Verwendung von PCA - obwohl dies stark von Ihrem Anwendungsfall, Inhalt / Typ / Datenmenge, neuronaler Netzwerkarchitektur usw. abhängt.

ps PCA eignet sich auch gut zur Visualisierung hochdimensionaler Daten (reduzieren Sie die Dimensionalität auf 2 oder 3 Dimensionen und zeichnen Sie sie dann auf. Dies ist besser, als wie oben beschrieben nur 2 Features gleichzeitig zu zeichnen).


Nun, ich möchte pca nicht verwenden. Es sind nur zweidimensionale Daten. Also dachte ich an eine manuelle Merkmalsextraktion
DuttaA

3

Ich denke, was Sie suchen, ist PCA (Principal Component Analysis). In Ihrem Fall müssen Sie die erste Hauptkomponente nehmen. Mit PCA kann der Prozess der Entscheidung automatisiert werden, welche linearen Kombinationen der Variablen die meisten Daten erklären. In dem Bild, das Sie gezeigt haben, ist die erste Komponente ungefähr die vertikale Achse Ihres Diagramms. Wenn Sie nicht wissen, was PCA ist, lesen Sie diese großartige Antwort auf Kreuzvalidierung.



2

Nehmen Sie Ihren Kommentar:

Nun, ich möchte pca nicht verwenden. Es sind nur zweidimensionale Daten. Also dachte ich an eine manuelle Merkmalsextraktion

Etwas wirklich Einfaches, das Sie tun können, ist nur zu verwendenydirekt. Es sieht aus wiey23 macht einen ziemlich guten Job beim Trennen der roten und grünen Gruppe im Streudiagramm.

Man könnte diesen Ansatz auf andere Variablenpaare verallgemeinern (ich,j)durch Anpassen von Entscheidungsbäumen mit einer Tiefe von 1, wobei die beste Einzelvariablenaufteilung erhalten wird, um die beiden Gruppen für jedes Paar zu trennen. Diese Regeln können verwendet werden, um eine einzelne zu verwendende Variable auszuwählen.ich oder joder eine binäre Variable / ein Binärflag, wie z y23 Vorschlag oben.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.