Datensatz für die Erkennung benannter Entitäten in informellem Text

18

Ich suche derzeit nach beschrifteten Datensätzen, um ein Modell zu trainieren, um benannte Entitäten aus informellem Text zu extrahieren (ähnlich wie Tweets). Da in den Dokumenten in meinem Datensatz häufig Groß- und Kleinschreibung und Grammatik fehlen, suche ich nach Daten außerhalb des Bereichs, die ein bisschen "informeller" sind als die Nachrichtenartikel- und Journaleinträge, die viele der heutigen Systeme zur Erkennung von Entitäten sind trainiert am.

Irgendwelche Empfehlungen? Bisher konnte ich nur 50.000 Token von Twitter finden, die hier veröffentlicht wurden .

dataset nlp

— Madison May
quelle

2

Empfehlen Sie fragen auf opendata.stackexchange.com

— Air

@ Madison May. Haben Sie einen Datensatz gefunden? Ich suche etwas ähnliches. Vielen Dank.

— Hoffer

Ich musste mich mit dem twitter ner corpus aus U. Washington begnügen (verlinkt in Originalpost).

— Madison

Zu

— Ihrer Information

Haben Sie einen guten annotierten englischen Korpus?

— Achyuta Nanda Sahoo

6

Soweit ich weiß, sind dies die Eigenschaften, die Sie in einem Beispieldatensatz suchen:

Textdaten
Es sollte informell sein, dh Tippfehler, Slang und im Grunde etwas nicht professionell bearbeitet haben
Etwas anderes als Twitter (Ich beschuldige Sie nicht, Twitter ist eine nützliche und dennoch viel zu häufig genutzte Beispiel-Datenquelle im Text-Mining.)

Hier einige Empfehlungen:

E-Mails vom SpamAssassin-Korpus - Beachten Sie, dass sowohl Ham- (Nicht-Spam-) als auch Spam-Datensätze verfügbar sind
MicroblogPCU-Datensatz von UCI, der aus den Microblogs von Sina Weibo-Benutzern stammt. Beachten Sie, dass die Rohtextdaten eine Mischung aus Chinesisch und Englisch sind wie es ist)
Amazon Commerce prüft den Datensatz von UCI
Innerhalb des bag-o-Wörter - Datensatz , versuchen , die E - Mails mit Enron
Der Datensatz " Twenty Newsgroups"
Diese schöne Sammlung von SMS-Spam
Sie können jederzeit Ihre eigenen Textdaten aus dem Internet extrahieren. Ich bin nicht sicher , welche Sprache oder statistisches Paket , das Sie verwenden, aber XPath-basierte Pakete in R verfügbar sind ( rvest, scrapeRusw.) und Python dies zu tun

— Hack-R
quelle

1

Werden diese Datasets jedoch mit benannten Entitäten kommentiert? Ich glaube, das war es, wonach OP gesucht hat.

— Mr. Phil

3

Überprüfen Sie diese:

Repository von Testdomänen für die Informationsextraktion: http://www.isi.edu/info-agents/RISE/repository.html

DBpedia: http://wiki.dbpedia.org/Downloads32 ( Spiegel )

Link aktualisiert:

http://www.isi.edu/integration/RISE/

https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set

— Sreejithc321
quelle

1

Bitte aktualisieren Sie diese Links, da keiner von ihnen mehr funktioniert.

— Mr. Phil

0

Einige der Quellen, die ich verwendet habe:

Der klassische CONLL Corpus: CONLL Dataset
Eine Kaggle-Quelle, die einen Versuch wert ist: Kaggle NER Corpus
OntoNotes Release 5.0: Auf Notizen
Aufgabe zur Erkennung von Bio-Entitäten : Bio-Entitäten
Ein weiterer Datensatz mit E-Mail-Bezug: Enron Email Dataset

Ich denke, diese Datensätze werden für Ihre Aufgabe eine große Hilfe sein

— Gyan Ranjan
quelle