Eine Hot-Codierung für eine große Anzahl von Werten


7

Wie verwenden wir eine Hot-Codierung, wenn die Anzahl der Werte, die eine kategoriale Variable annehmen kann, groß ist?

In meinem Fall sind es 56 Werte. Wie üblich müsste ich dem Trainingsdatensatz 56 Spalten (56 Binärmerkmale) hinzufügen, was die Komplexität und damit die Trainingszeit immens erhöht.

Wie gehen wir mit solchen Fällen um?


3
Schauen Sie sich Feature-Hashing an
Emre

Welchen Algorithmus verwenden Sie? SGD kann in wenigen Minuten Hunderttausende von Funktionen in Hunderttausenden von Datenzeilen auf einem Laptop verarbeiten.
Diego

Antworten:


9

Wenn Sie sich wirklich für die Anzahl der Dimensionen interessieren, können Sie dennoch versuchen, einen Algorithmus zur Dimensionsreduzierung wie PCA (Hauptkomponentenanalyse) oder LDA (Lineare Diskriminanzanalyse) nach Ihrer einzigen heißen Codierung anzuwenden.

Aber wissen Sie, dass "56 Funktionen" nicht wirklich groß sind und es in der Branche weit verbreitet ist, Tausende, Millionen oder sogar Milliarden von Funktionen zu haben.


Ist es normal, 50 Funktionen und 60 Kategorien mit RNNs zu haben?
Boppity Bop

2

Sie können versuchen, die Dimmension der 56 resultierenden Dummy-Features zu reduzieren, wenn Sie einige Kategorien haben, die im Vergleich zur Mehrheit einen kleinen Anteil darstellen, indem Sie sie gleich kennzeichnen.


Gibt es eine Möglichkeit herauszufinden, welche Funktionen zusammengelegt werden sollten, da in meinem Fall alle Funktionen mehr oder weniger gleich wichtig sind?
Mach

Probieren Sie die mit kleiner Frequenz!
Alexandru Daia

... oder Sie könnten die Werte detaillierter gestalten. zB Nordosten, Mittelatlantik usw. anstelle der 50 Staaten. Gibt es irgendeine Art von Domänenwissen, mit dem Sie bestimmte Faktoren zusammenführen könnten?

1
Woher wissen Sie, dass alle kategorialen Werte gleich wichtig sind? Was war Ihre Methodik ... haben Sie Pearson-Korrelation mit dem Ziel, Lasso-Regression, Entscheidungsbaum, ... durchgeführt? Wie beurteilen Sie die Bedeutung von Funktionen?
AN6U5

-1

Wenn es eine große Anzahl von kategorialen Variablen gibt, ist es ratsam, eine gegen Ruhe zu machen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.