Beachten Sie, dass ich alles in R mache.
Das Problem lautet wie folgt:
Grundsätzlich habe ich eine Liste von Lebensläufen. Einige Kandidaten haben bereits Berufserfahrung und andere nicht. Das Ziel dabei ist: Ich möchte sie auf der Grundlage des Texts in ihren Lebensläufen in verschiedene Berufsbereiche einteilen. Ich bin besonders in jenen Fällen, in denen die Kandidaten keine Erfahrung haben / Student sind, und ich möchte eine Vorhersage machen, um zu klassifizieren, welchen Berufsbereichen dieser Kandidat nach dem Abschluss am wahrscheinlichsten angehört.
Frage 1: Ich kenne Algorithmen für maschinelles Lernen. Allerdings habe ich noch nie NLP gemacht. Ich bin auf Latent Dirichlet Allocation im Internet gestoßen. Ich bin mir jedoch nicht sicher, ob dies der beste Ansatz ist, um mein Problem anzugehen.
Meine ursprüngliche Idee: Machen Sie dies zu einem überwachten Lernproblem . Angenommen, wir haben bereits eine große Menge gekennzeichneter Daten, was bedeutet, dass wir die Jobsektoren für eine Kandidatenliste korrekt gekennzeichnet haben. Wir trainieren das Modell mit ML-Algorithmen (dh dem nächsten Nachbarn ...) und geben diese nicht etikettierten Daten ein , die Kandidaten sind, die keine Berufserfahrung haben / Studenten sind, und versuchen vorherzusagen, zu welchem Berufsbereich sie gehören werden.
Update Frage 2: Wäre es eine gute Idee, eine Textdatei zu erstellen, indem Sie alles in einem Lebenslauf extrahieren und diese Daten in der Textdatei ausdrucken, sodass jeder Lebenslauf mit einer Textdatei verknüpft ist, die unstrukturierte Zeichenfolgen enthält, und dann wir angewandte Text-Mining-Techniken auf die Textdateien anwenden und die Daten strukturieren oder sogar eine Häufigkeitsmatrix von Begriffen aus den Textdateien erstellen? Die Textdatei könnte beispielsweise so aussehen:
I deployed ML algorithm in this project and... Skills: Java, Python, c++ ...
Dies ist, was ich mit "unstrukturiert" meinte, dh alles in einer einzigen Zeile zusammenfassen.
Ist dieser Ansatz falsch? Bitte korrigieren Sie mich, wenn Sie meinen, mein Ansatz sei falsch.
Frage 3: Der schwierige Teil ist: Wie identifiziere und extrahiere ich die Schlüsselwörter ? Verwenden Sie das tm
Paket in R? Welcher Algorithmus ist dertm
Paket? Soll ich NLP-Algorithmen verwenden? Wenn ja, auf welche Algorithmen sollte ich achten? Bitte weisen Sie mich auf einige gute Ressourcen hin, die Sie ebenfalls ansehen können.
Irgendwelche Ideen wären toll.