Merkmalsextraktion aus einem Streudiagramm

7

Angenommen, ich habe ein Streudiagramm wie dieses:

Da ich viele Streudiagramme wie dieses habe, möchte ich eine Feature-Transformation durchführen, dh einen Squash (x,y)in einem einzelnen Term, der in ein NN eingegeben wird. Welche Transformation wie x/yoder (x/y)^2eine andere Transformation für diese Art von Diagrammen am besten geeignet ist, dh die Trennung stärker erhöhen, während sie auf einen einzelnen Term reduziert wird.

machine-learning neural-network feature-extraction

— DuttaA
quelle

5

Wie @David Masip erwähnte, wäre die Hauptkomponentenanalyse hier eine gute Methode. Im Wesentlichen ist PCA eine Methode, mit der eine Abbildung zwischen einem hochdimensionalen Raum und einem niederdimensionalen Raum gefunden wird, während die Daten so stark wie möglich variiert werden - perfekt für die Dimensionsreduzierung hochdimensionaler Daten.

Sie erwähnen jedoch, dass Sie diese reduzierten Daten zum Trainieren eines neuronalen Netzwerkmodells verwenden möchten. Es kann am besten sein, zuerst das neuronale Netzmodell zu trainieren und zu sehen, wie gut es funktioniert, da neuronale Netze normalerweise sehr gut darin sind, Interaktionen zwischen Merkmalen sowie anderen verborgenen Strukturen in den Daten zu identifizieren. Wenn die Leistung nicht gut ist, besteht ein Ansatz zur Verbesserung der Leistung möglicherweise in der Verwendung von PCA - obwohl dies stark von Ihrem Anwendungsfall, Inhalt / Typ / Datenmenge, neuronaler Netzwerkarchitektur usw. abhängt.

ps PCA eignet sich auch gut zur Visualisierung hochdimensionaler Daten (reduzieren Sie die Dimensionalität auf 2 oder 3 Dimensionen und zeichnen Sie sie dann auf. Dies ist besser, als wie oben beschrieben nur 2 Features gleichzeitig zu zeichnen).

— PyRsquared
quelle

Nun, ich möchte pca nicht verwenden. Es sind nur zweidimensionale Daten. Also dachte ich an eine manuelle Merkmalsextraktion

— DuttaA

3

Ich denke, was Sie suchen, ist PCA (Principal Component Analysis). In Ihrem Fall müssen Sie die erste Hauptkomponente nehmen. Mit PCA kann der Prozess der Entscheidung automatisiert werden, welche linearen Kombinationen der Variablen die meisten Daten erklären. In dem Bild, das Sie gezeigt haben, ist die erste Komponente ungefähr die vertikale Achse Ihres Diagramms. Wenn Sie nicht wissen, was PCA ist, lesen Sie diese großartige Antwort auf Kreuzvalidierung.

— David Masip
quelle

3

Schauen Sie sich die lineare Diskriminanzanalyse an . Dieser Leitfaden soll Ihnen eine Vorstellung davon geben, warum er für Ihre Aufgabe besser geeignet ist als PCA.

— jukofyork
quelle

Antworten, die nur Links enthalten, werden nicht empfohlen ...

— Aditya

2

Nehmen Sie Ihren Kommentar:

Nun, ich möchte pca nicht verwenden. Es sind nur zweidimensionale Daten. Also dachte ich an eine manuelle Merkmalsextraktion

Etwas wirklich Einfaches, das Sie tun können, ist nur zu verwenden $y$ direkt. Es sieht aus wie $y \gtrapprox 23$ macht einen ziemlich guten Job beim Trennen der roten und grünen Gruppe im Streudiagramm.

Man könnte diesen Ansatz auf andere Variablenpaare verallgemeinern $(i,j)$ durch Anpassen von Entscheidungsbäumen mit einer Tiefe von 1, wobei die beste Einzelvariablenaufteilung erhalten wird, um die beiden Gruppen für jedes Paar zu trennen. Diese Regeln können verwendet werden, um eine einzelne zu verwendende Variable auszuwählen. $i$ oder $j$ oder eine binäre Variable / ein Binärflag, wie z $y \gtrapprox 23$ Vorschlag oben.

— Eduard Gelman
quelle