Wie bekomme ich eine englischsprachige Wortdatenbank? [geschlossen]


148

Ich benötige eine Datenbank mit jedem einzelnen gültigen Wort in Englisch. Ich habe die /usr/share/dict/wordsDatei überprüft , sie enthält weniger als 100.000 Wörter. Wikipedia sagt, dass Englisch 475k Wörter hat. Woher bekomme ich die vollständige Liste (amerikanische Rechtschreibung)?

Gibt es auch eine einzige Website, die Wörter für andere Sprachen enthält, einschließlich asiatischer und europäischer?

Bearbeiten: Vergessen hinzuzufügen, ich brauche keine Namen usw., nur gültige englische Wörter.


9
Mein /usr/share/dict/wordshat 479829 Wörter, also gibt es hier vielleicht einige Variationen (und könnte für andere geeignet sein).
Marshall.ward

4
wc -l /usr/share/dict/wordsauf Mac ist 235.886 Wörter (Juli 2014 - OSX Mavericks 10.9.4)
nelsonic

2
Beste Liste, die ich gefunden habe: raw.githubusercontent.com/docdis/english-words/master/… . Danke geht an @nelsonic.
james.garriss


1
Sie können eine Worlist hier bekommen marcoagpinto.cidadevirtual.pt/proofingtoolgui.html .. suchen Sie nach dem WORDLIST-Link auf der rechten Seite
kofifus

Antworten:


75

Die WordNet- Datenbank kann hilfreich sein. Ich habe einmal an einem Firefox-Add-On gearbeitet, das sich mit Wörtern und allen möglichen einfachen bis komplizierten Assoziationen zwischen ihnen und Dingen befasst. Es sieht so aus, als wäre WordNet für Sie sehr nützlich.

Hier ist es im MySQL-Format . Und dieser (im Web archivierter Link) verwendet Wordnet v3.0-Daten anstelle der älteren Wordnet 2.0-Daten.


Haben sie auch eine herunterladbare Liste?

1
Ja, sie bieten Ihnen die Möglichkeit, ihre Datenbank in vielen Formaten herunterzuladen - CSV, MySQL-Datenbank usw. - und haben sogar APIs, die Sie über .Net, Java usw. verwenden können. Dies ist die Download-Seite - wordnet.princeton .edu / wordnet / download
user266803


Ich habe es nicht persönlich heruntergeladen, aber es war dort fertig, als ich mit dem Codieren begann. Ich weiß also nicht, welche Dateien in welchem ​​Download enthalten sein werden. Ich weiß nur, dass Sie in verschiedenen Formaten herunterladen können. Wenn Sie mir sagen können, in welchem ​​Format Sie möchten, kann ich Ihnen möglicherweise helfen.
user266803

Sieht in der Tat nach einem sehr interessanten Projekt aus.
Wim Hollebrandse

36

Was Sie brauchen, finden Sie auf infochimps.org .

Sie haben eine Liste von 350.000 einfachen (dh nicht zusammengesetzten) Wörtern zum kostenlosen Download.

Wortliste - 350.000+ einfache englische Wörter

In Bezug auf andere Sprachen möchten Sie vielleicht in Wiktionary stöbern. Hier ist ein Link zu allen Datenbanksicherungen - die Informationen sind nicht so wahrscheinlich organisiert, aber wenn sie eine Sprache haben, können Sie die Daten im SQL-Format herunterladen.


6
Der Download-Link hat sich geändert - infochimps.com/datasets/…
Chris Rae

36
Ärgerlicherweise ist die Infochimps-Datei .xls (eine Excel-Datei mit den Wörtern, die auf 6 Arbeitsblätter verteilt sind!) ... Ich habe alle 354986 Wörter in eine txt-Datei extrahiert : github.com/nelsonic/english-words
nelsonic

@ Nelsonic vielen Dank, der Infochimps-Link ist 404

1
@ ChrisRae beide Links funktionieren nicht
garg10may

5
Es scheint, als ob sie Wörter mit Rechtschreibfehlern enthalten, wie z. B. Technologie - vermutlich, weil sie alles sammeln, was im Web angezeigt wird. Es ist also gut für das Knacken / Überprüfen von Passwörtern, aber nicht für Anwendungen, die echte Wörter erfordern (wie Rechtschreibprüfung usw.).
Max

13

Ich sehe http://wordlist.sourceforge.net/ nicht. hier erwähnt, aber hier würde ich anfangen, wenn ich nach so etwas suchen würde (und das war ich, als ich über diese Frage stolperte).

Wenn Sie dort nicht finden können, was Sie wollen, und was Sie wollen, ist eine Liste englischer Wörter, dann sollten Sie wahrscheinlich etwas mehr Zeit damit verbringen, zu beschreiben, wie Sie erkennen, was Sie wollen.


1
Ich hatte die Hoffnung, dass diese breiteren Listen Interpunktionswörter wie "C ++" oder "C #" enthalten würden, konnte aber keine finden. Wenn Sie also nach einem Kurzschluss suchen, können Sie diesen (und die engeren Listen in anderen Antworten) überspringen.
Kochfelder

9

Es gibt keine "vollständige" Liste. Unterschiedliche Personen haben unterschiedliche Messmethoden - beispielsweise Slang, Neologismen, Mehrwortphrasen, beleidigende Begriffe, Fremdwörter, Verbkonjugationen usw. Einige Leute haben sogar eine Million Wörter gezählt ! Sie müssen also entscheiden, was Sie in einer Wortliste möchten.


3
Danke für diesen Link. Eine sehr aufschlussreiche Lektüre darüber, wie viele Wörter es in der englischen Sprache gibt und wie sinnlos es ist, zu einer endgültigen Zählung zu gelangen. Für eine präzisere und aktuellere Lektüre gibt es auch Folgendes : en.oxforddictionaries.com/explore/language-questions/… .
Prometheus

4

Sie können das von Mozilla, OpenOffice und vielen anderen Programmen verwendete *spell En-GB-Wörterbuch überprüfen .


Link auf Mozilla en-gb.pyxidium.co.uk/dictionary/en_GB.zip sagt Server nicht gefunden, irgendein Update? danke

@AMB Danke, ich habe den Link aktualisiert, um auf die alternative Quelle des Wörterbuchs unter extensions.openoffice.org/en/project/…
mloskot

Und jetzt ist der neue Link 404, @mloskot.
James.garriss

@ james.garriss Ich fürchte, die gesamte Website extensions.openoffice.org scheint ausgefallen zu sein.
Mloskot

3

Sie haben nicht gesagt, wofür Sie diese Liste benötigen. Wenn etwas, das als schwarze Liste für Passwortprüfungen verwendet wird, ausreicht, ist Cracklib möglicherweise gut für Sie. Es enthält über 1,5 Millionen Wörter.


1
Nein, nicht für die schwarze Liste. Ich mache eine Art Wortspiel / Grafik.

Dies hat viele "Junk-Wörter", aber ich bin immer noch sehr dankbar, dass Sie dies hier setzen - es ist perfekt, wenn Sie nach bestimmten Wörtern suchen, die die anderen Wörterbücher nicht haben (z. B. Feuerwehrauto)
kangalioo
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.