Datensatz für die Erkennung benannter Entitäten in informellem Text


18

Ich suche derzeit nach beschrifteten Datensätzen, um ein Modell zu trainieren, um benannte Entitäten aus informellem Text zu extrahieren (ähnlich wie Tweets). Da in den Dokumenten in meinem Datensatz häufig Groß- und Kleinschreibung und Grammatik fehlen, suche ich nach Daten außerhalb des Bereichs, die ein bisschen "informeller" sind als die Nachrichtenartikel- und Journaleinträge, die viele der heutigen Systeme zur Erkennung von Entitäten sind trainiert am.

Irgendwelche Empfehlungen? Bisher konnte ich nur 50.000 Token von Twitter finden, die hier veröffentlicht wurden .


2
Empfehlen Sie fragen auf opendata.stackexchange.com
Air

@ Madison May. Haben Sie einen Datensatz gefunden? Ich suche etwas ähnliches. Vielen Dank.
Hoffer

Ich musste mich mit dem twitter ner corpus aus U. Washington begnügen (verlinkt in Originalpost).
Madison


Haben Sie einen guten annotierten englischen Korpus?
Achyuta Nanda Sahoo

Antworten:


6

Soweit ich weiß, sind dies die Eigenschaften, die Sie in einem Beispieldatensatz suchen:

  1. Textdaten
  2. Es sollte informell sein, dh Tippfehler, Slang und im Grunde etwas nicht professionell bearbeitet haben
  3. Etwas anderes als Twitter (Ich beschuldige Sie nicht, Twitter ist eine nützliche und dennoch viel zu häufig genutzte Beispiel-Datenquelle im Text-Mining.)

Hier einige Empfehlungen:

  1. E-Mails vom SpamAssassin-Korpus - Beachten Sie, dass sowohl Ham- (Nicht-Spam-) als auch Spam-Datensätze verfügbar sind
  2. MicroblogPCU-Datensatz von UCI, der aus den Microblogs von Sina Weibo-Benutzern stammt. Beachten Sie, dass die Rohtextdaten eine Mischung aus Chinesisch und Englisch sind wie es ist)
  3. Amazon Commerce prüft den Datensatz von UCI
  4. Innerhalb des bag-o-Wörter - Datensatz , versuchen , die E - Mails mit Enron
  5. Der Datensatz " Twenty Newsgroups"
  6. Diese schöne Sammlung von SMS-Spam
  7. Sie können jederzeit Ihre eigenen Textdaten aus dem Internet extrahieren. Ich bin nicht sicher , welche Sprache oder statistisches Paket , das Sie verwenden, aber XPath-basierte Pakete in R verfügbar sind ( rvest, scrapeRusw.) und Python dies zu tun

1
Werden diese Datasets jedoch mit benannten Entitäten kommentiert? Ich glaube, das war es, wonach OP gesucht hat.
Mr. Phil


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.