Ich bin mir nicht sicher, ob diese Frage hier völlig angemessen ist. Wenn nicht, bitte löschen.
Ich bin ein Student der Wirtschaftswissenschaften. Für ein Projekt, das Probleme in der Sozialversicherung untersucht, habe ich Zugang zu einer großen Anzahl von administrativen Fallberichten (> 200.000), die sich mit Eignungsbewertungen befassen. Diese Berichte können möglicherweise mit einzelnen Verwaltungsinformationen verknüpft werden. Ich möchte Informationen aus diesen Berichten extrahieren, die für die quantitative Analyse verwendet werden können, und im Idealfall mehr als nur einfache Keyword- / Regex-Suchen mit grep
/ awk
usw.
Wie nützlich ist die Verarbeitung natürlicher Sprache dafür? Was sind andere nützliche Text-Mining-Ansätze? Soweit ich weiß, ist dies ein großes Feld, und höchstwahrscheinlich müssten einige der Berichte transformiert werden, um als Korpus verwendet zu werden. Lohnt es sich, etwas Zeit zu investieren, um sich mit Literatur und Methoden vertraut zu machen? Kann es hilfreich sein und wurde schon etwas Ähnliches getan? Lohnt es sich in Bezug auf die Belohnungen, dh kann ich mithilfe von NLP potenziell nützliche Informationen für eine empirische Studie in Wirtschaftswissenschaften extrahieren?
Möglicherweise gibt es Mittel, um jemanden einzustellen, der einige der Berichte liest und vorbereitet. Dies ist ein größeres Projekt und es besteht die Möglichkeit, mehr Mittel zu beantragen. Ich kann bei Bedarf weitere Details zum Thema bereitstellen. Eine mögliche Komplikation ist, dass die Sprache Deutsch und nicht Englisch ist.
In Bezug auf Qualifikationen bin ich hauptsächlich in Ökonometrie ausgebildet und habe einige Kenntnisse über Computerstatistik auf der Ebene von Hastie et al. Buch. Ich kenne Python, R, Stata und könnte mich wahrscheinlich schnell mit Matlab vertraut machen. Angesichts der Bibliotheken gehe ich davon aus, dass Python das Werkzeug der Wahl ist. Keine Ausbildung in qualitativen Methoden, wenn dies relevant ist, aber ich kenne einige Leute, die ich erreichen könnte.
Ich freue mich über jede Eingabe dazu, dh wenn dies möglicherweise nützlich ist, wenn ja, wo ich mit dem Lesen beginnen soll und auf welche Tools ich mich besonders konzentrieren soll.