Nehmen wir an, ich möchte einen logistischen Klassifikator für einen Film M erstellen. Meine Merkmale wären etwa das Alter der Person, das Geschlecht, der Beruf oder der Ort. Das Trainingsset würde also ungefähr so aussehen:
- Alter Geschlecht Beruf Standort Gefällt mir (1) / Gefällt mir nicht (0)
- 23 M Software US 1
- 24 F Doctor UK 0
und so weiter .... Nun ist meine Frage, wie ich meine Funktionen skalieren und darstellen soll. Ein Weg, den ich dachte: Teilen Sie das Alter in Altersgruppen ein, also 18-25, 25-35, 35-über, Geschlecht als M, F, Ort als US, UK, Andere. Erstellen Sie nun für alle diese Werte ein Binär-Feature. Daher verfügt age über 3 Binär-Features, die jeweils einer Altersgruppe entsprechen, und so weiter. Ein 28-jähriger Mann aus den USA würde also als 010 10 100 (010-> Altersgruppe 25-35, 10 -> Mann, 100 -> USA) dargestellt.
Was könnte der beste Weg sein, um Features hier darzustellen? Auch ist mir in einigen e.gs aufgefallen. B. Geschlecht wird durch zwei Werte dargestellt, 0,0045 und -0,0045 für männlich und weiblich. Ich habe keine Ahnung, wie man so eine Skalierung / Normalisierung durchführt.