Ich suche einen großen (> 1000) Textkorpus zum Herunterladen. Am liebsten mit Weltnachrichten oder irgendwelchen Berichten . Ich habe nur einen mit Patenten gefunden. Irgendwelche Vorschläge?
Ich suche einen großen (> 1000) Textkorpus zum Herunterladen. Am liebsten mit Weltnachrichten oder irgendwelchen Berichten . Ich habe nur einen mit Patenten gefunden. Irgendwelche Vorschläge?
Antworten:
Passen die Wikileaks-Texte nicht zu Ihnen?
Was ist mit Wikinews ? Hier ist der neueste Datenbank-Dump, den ich finden konnte: http://dumps.wikimedia.org/enwikinews/20111120/
Sie möchten wahrscheinlich die "Alle Seiten, nur aktuelle Versionen." - Version.
Der reuters Textkorpus ist ein Klassiker auf diesem Gebiet und hier zu finden
http://endb-consolidated.aihit.com/datasets.htm enthält 10.000 Unternehmen mit textuellen Beschreibungen
Wenn die Aktualität kein Problem ist, können Sie es versuchen
http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version
und je nach Budget gibt es in infochimp noch viele weitere ähnliche Datensätze.
Grüße, Andy.
Wenn Sie vorberechnete n-Gramme möchten, können Sie das Google Books-Archiv durchsuchen: