Viele Algorithmen für maschinelles Lernen, zum Beispiel neuronale Netze, gehen davon aus, dass sie sich mit Zahlen befassen. Wenn Sie also kategoriale Daten haben, müssen Sie diese konvertieren. Mit kategorisch meine ich zum Beispiel:
Automarken: Audi, BMW, Chevrolet ... Benutzer-IDs: 1, 25, 26, 28 ...
Obwohl es sich bei den Benutzer-IDs um Zahlen handelt, handelt es sich nur um Bezeichnungen, und dies bedeutet nichts in Bezug auf Kontinuität wie Alter oder Geldsumme.
Der grundlegende Ansatz scheint also binäre Vektoren zu verwenden, um Kategorien zu codieren:
Audi: 1, 0, 0 ... BMW: 0, 1, 0 ... Chevrolet: 0, 0, 1 ...
Es ist in Ordnung, wenn es nur wenige Kategorien gibt, aber darüber hinaus sieht es ein bisschen ineffizient aus. Wenn Sie beispielsweise 10 000 Benutzer-IDs codieren müssen, sind es 10 000 Funktionen.
Die Frage ist, gibt es einen besseren Weg? Vielleicht eine mit Wahrscheinlichkeiten?