Einige gängige Algorithmen für maschinelles Lernen wie die logistische Regression oder neuronale Netze erfordern numerische Eingaben.
Was mich interessiert, ist, wie Sie diese Algorithmen für nicht numerische Eingaben (wie kurze Zeichenfolgen) verwenden.
Angenommen, wir erstellen ein E-Mail-Klassifizierungssystem (Spam / kein Spam), bei dem eine der Eingabefunktionen die Absenderadresse ist.
Um einen Lernalgorithmus verwenden zu können, müssen wir die Absenderadresse als Zahl darstellen. Eine Möglichkeit besteht darin, einfach die Absender 1..n zu nummerieren. Unser Trainingsset könnte dann so aussehen:
Dies funktioniert jedoch nicht, da Algorithmen wie die logistische Regression oder neuronale Netze Muster in den Eingabedaten lernen, während in unserem Beispiel die Ausgabe für den Algorithmus völlig zufällig aussieht. In der Tat haben wir in einer Universitätsklasse versucht, ein neuronales Netzwerk auf einem Datensatz zu trainieren, der so aussah, und das Netzwerk konnte nichts lernen (die Lernkurve war flach).
Würden Sie in diesem Beispiel überhaupt logistische Regression oder neuronale Netze verwenden? Wenn ja, auf welche Weise? Wenn nicht, wie lassen sich E-Mails anhand der Absenderadresse klassifizieren?
Eine perfekte Antwort würde das Beispiel der E-Mail-Klassifizierung sowie den Umgang mit kurzen Zeichenfolgen in ML im Allgemeinen diskutieren.