Ich hatte Erfolg mit Latent Dirichlet Allocation (LDA), um die latenten Themen oder "Themen" in Textdaten zu finden. LDA erstellt Themen aus Begriffen (Wörtern) aus Ihrem Korpus von Stellenbeschreibungen. Jede Stellenbeschreibung erhält eine Wahrscheinlichkeit, jedes der Themen zu enthalten. Wenn Sie beispielsweise LDA gebeten haben, einen Korpus in drei Themen zu klassifizieren, enthält eine Stellenbeschreibung für einen Grafikdesigner möglicherweise 80% "Photoshop Graphic Illustrator ...", 18% "HTML CSS JS ..." und 2% "Java" Frühling objektorientiert ... ". Es gibt viel über die LDA zu lesen, suchen Sie einfach oder beginnen Sie mit der Quora-Frage .kk
Meine Analyse mit LDA war in R, aber es gibt natürlich ein Python-Paket, obwohl ich es nie in meiner eigenen Arbeit verwendet habe.
Sie können eine Themennummer auswählen, die den Nummernberufen im SOC entspricht. Nachdem Sie die Themen generiert haben, überprüfen Sie sie und prüfen Sie, ob Sie aussagekräftige Links zum SOC finden. Passen Sie die Themennummer entsprechend an, bis Sie zufrieden sind.
Um Gehaltsschätzungen für jede Stellenbeschreibung vorzunehmen, sollten Sie jedes Gehalt anhand der Themenwahrscheinlichkeiten gewichten. Wenn beispielsweise eine Stellenbeschreibung eine Wahrscheinlichkeit von 80% hat, ein Softwareentwickler zu sein, gewichtet der SOC das Gehalt mit 0,80 und die übrigen Themen ebenfalls. Wenn dies zu viel Lärm verursacht, setzen Sie einfach einen Grenzwert (möglicherweise 20%) und entfernen Sie die verbleibenden Themengewichte aus der Gehaltsschätzung.
Bei Rechtschreibfehlern können Sie es jederzeit mit einer Rechtschreibprüfung angreifen und sehen, wie es mit den Ergebnissen ohne das Tool verglichen wird. Stellen Sie außerdem sicher, dass Sie Standard-NLP-Techniken wie das Entfernen von Satzzeichen und das Steming von Wörtern verwenden, bevor Sie LDA ausführen.