Wenn ML-Algorithmen, z. B. Vowpal Wabbit oder einige der Faktorisierungsmaschinen, die Klickratenwettbewerbe gewinnen ( Kaggle ), erwähnen, dass Features gehasht sind, was bedeutet das eigentlich für das Modell? Nehmen wir an, es gibt eine Variable, die die ID eines Internet-Zusatzes darstellt, der Werte wie '236BG231' annimmt. Dann verstehe ich, dass diese Funktion zu einer zufälligen ganzen Zahl gehasht wird. Aber meine Frage ist:
- Wird die Ganzzahl jetzt im Modell als ganzzahliges (numerisches) ODER verwendet?
- Wird der Hash-Wert tatsächlich immer noch wie eine kategoriale Variable behandelt und One-Hot-Coded? Der Hashing-Trick ist also, mit großen Datenmengen irgendwie Platz zu sparen?