Kann jemand eine Liste geben, für welche Algorithmen kategoriale Funktionen erforderlich wären, um eine Hotcodierung durchzuführen, und für welche nicht?
AFAIU, es hat mehr mit den bestimmten Daten zu tun , weniger mit dem bestimmten Algorithmus . Insbesondere hängt es davon ab, ob die Kategorien eine sinnvolle Reihenfolge aufweisen oder nicht.
Betrachten Sie zwei Fälle. In der ersten haben Sie die Kategorien schlecht, meh, gut und in der zweiten haben Sie Apfel, Orange, Birne . Im ersten Fall gibt es eine natürliche Ordnung, weil meh wahrscheinlich zwischen schlecht und gut liegt , aber wahrscheinlich passiert nichts Ähnliches bei Apfel, Orange, Birne .
Wenn Sie im ersten Fall eine One-Hot-Codierung vermeiden, "verlieren" Sie die Informationen über die Bestellung. Wenn Sie für den zweiten Fall eine One-Hot-Codierung verwenden, weisen Sie den Kategorien eine Reihenfolge zu, die natürlich nicht zutrifft.
Ich mache es immer dann, wenn der Algorithmus eine Distanzmetrik verwendet, um die Ähnlichkeit zu berechnen.
Warum? Angenommen, eine der Funktionen ist eine kategorische schlechte, meh, gut , und Sie haben drei Instanzen, 1, 2 und 3, in denen sie identisch sind, außer dass 1 schlecht , 2 meh und 3 gut ist. Sie möchten dem Algorithmus wahrscheinlich mitteilen, dass 1 2 ähnlicher ist als 3.