Ich suche derzeit nach beschrifteten Datensätzen, um ein Modell zu trainieren, um benannte Entitäten aus informellem Text zu extrahieren (ähnlich wie Tweets). Da in den Dokumenten in meinem Datensatz häufig Groß- und Kleinschreibung und Grammatik fehlen, suche ich nach Daten außerhalb des Bereichs, die ein bisschen "informeller" sind als die Nachrichtenartikel- und Journaleinträge, die viele der heutigen Systeme zur Erkennung von Entitäten sind trainiert am.
Irgendwelche Empfehlungen? Bisher konnte ich nur 50.000 Token von Twitter finden, die hier veröffentlicht wurden .