Ich habe Fragen zur Codierung kategorialer Features durchgesehen, konnte jedoch keine finden, die mein Problem diskutieren. Entschuldigung, wenn ich es verpasst habe.
Nehmen wir an, wir haben einen Datensatz mit binären und nominalen Variablen von jeweils ungefähr gleicher Bedeutung.
Die meisten Klassifizierer können sich nicht direkt mit kategorialen Typen befassen, daher müssen diese transformiert werden - beispielsweise mithilfe der One-Hot-Codierung (Dummy-Variablen), wie in dieser Antwort erläutert .
Wenn eine kategoriale Variable eine hohe Kardinalität aufweist, würde sie dann nicht auf diese Weise andere (zum Beispiel binäre) Variablen "überwältigen"? Mit "Kardinalität" meine ich die Anzahl der Kategorien in einer nominalen Variablen.
Wenn unser Klassifikatormodell die Beziehungen zwischen Variablen kennt, würde es dann nicht unnötig versuchen, Beziehungen zwischen eingeführten binären Dummy- "Komponenten" derselben Variablen zu finden?
Und wenn ja, wie könnte dies angegangen werden?
Die beste Lösung, die ich mir vorstellen kann, besteht darin, Eigenschaften mit hoher Kardinalität logisch in "Buckets" zu gruppieren. Wenn jedoch genügend eindeutige Werte vorhanden sind, um ein Problem zu verursachen, wäre das manuelle Gruppieren ebenfalls arbeitsaufwendig.
Bearbeiten: Dies ist trivial und behebt das Problem nur teilweise, aber eines der Dinge, die ich letztendlich getan habe, ist, alle relativ seltenen kategorialen Werte durch eine neue, "andere" Kategorie zu ersetzen. Es kann zeitaufwändig sein, den Schwellenwert zu optimieren, wenn der Wert als "selten" eingestuft wird, aber zumindest dieser Ansatz kann automatisiert werden.