Antworten:
Laut Informationen über den Zugriff von Robotern auf unsere Seiten :
Der Roboterzugriff auf unsere Site sollte als letzte Ressource verbleiben, wenn alles andere fehlgeschlagen ist. Denken Sie auch daran, dass die Project Gutenberg-Website urheberrechtlich geschützt ist.
Es gibt jedoch Hoffnung :
Bessere Alternativen
- Holen Sie sich eine Offline-Version der Project Gutenberg-Website.
- Holen Sie sich alle Project Gutenberg eBook-Dateien.
- Holen Sie sich die Project Gutenberg-Katalogdaten.
Und:
[...] Sie können alle unsere eBooks in gezippten Dateien erhalten, indem Sie Ihren Roboter auf http://www.gutenberg.org/robot/harvest richten
[...] Beim Entpacken der ZIP-Dateien werden weitere 70.000 Dateien erstellt.
Dies ist ein Beispiel, wie Sie alle Dateien erhalten, indem Sie Folgendes verwenden
wget
:wget -w 2 -m http://www.gutenberg.org/robot/harvest
[...] Wenn Sie nur einige Dateitypen möchten, sagen Sie:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt
[...] Wenn Sie nur Dateien in einer bestimmten Sprache möchten, sagen Sie:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?langs[]=de
Also, ich würde fragen:
wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en
--level=0
. Aber ich denke, Sie sollten besser erlauben, abzubrechen und neu zu starten: try --level 9999 --no-clobber
, wodurch Dateien, die Sie bereits haben, übersprungen werden (vorausgesetzt, Sie befinden sich immer noch im selben Ordner auf der Festplatte).
--input-file
im Handbuch .
-c
Option verwendet, aber immer noch. Ich habe offset=xxx
die URL angegeben, die gespiegelt werden soll, aber sie wird immer noch von der ersten Seite heruntergeladen.
Sie können die gesamte Gutenberg-Sammlung englischer Bücher und anderer Sprachen in einer einzigen ZIM-Datei herunterladen , die stark komprimiert ist und dann mit Kiwix sowohl auf dem Desktop als auch auf Android geöffnet werden kann . Die englischen Bücher sind 40 GB.
Die ausgewählte Antwort ist zwar korrekt, kann jedoch zwei Probleme verursachen:
wget
Befehl beim Herunterladen der Dateien von einem externen Spiegel keine rekursiven Prüfungen durchführt.Die folgende Lösung behebt diese Probleme:
wget -H -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en \
--referer="http://www.google.com" \
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6" \
--header="Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5" \
--header="Accept-Language: en-us,en;q=0.5" \
--header="Accept-Encoding: gzip,deflate" \
--header="Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7" \
--header="Keep-Alive: 300"
Möglicherweise möchten Sie die Referrer- und User-Agent-Zeichenfolgen ändern, um eine gewisse Zufälligkeit zu erzielen.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso hat ein paar gute Möglichkeiten.
ftp://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.iso ist eine 8-GB-Datei, die für Ihre Anforderungen ausreichen sollte.
Weitere Informationen finden Sie hier:
https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Downloading_Via_FTP bietet alle Optionen zum Herunterladen des Archivs, einschließlich FTP und BitTorrent.
Eine weitere Option ist das großartige Tool unter http://pgiso.pglaf.org/ .
Warum nicht all Ihre überkomplizierten und oben gezeigten Programmierkenntnisse und Kenntnisse nutzen, um eine einfache Schaltfläche zu erstellen, die all diese Aktionen miteinander verknüpft und "Alle aktuellen Bücher herunterladen" mit einer Registerkarte mit Sprachoptionen sagt, wenn Sie darauf klicken.
Ich bin mir sicher, dass die meisten Benutzer der Website E-Book-Sammler sind und das manuelle Herunterladen bestimmter Bücher zu Themen, die sie interessieren, für 1 oder 2 Bücher in Ordnung ist. Eine größere Sammlung manuell zu erstellen, ist jedoch ein Kinderspiel. Dennoch, wenn sie es für Recherchen benötigen oder einfach eine riesige digitale Bibliothek mit Büchern an ihrem eigenen PC besitzen möchten. Die meisten Leute sind ausgeschaltet und entfernen sich von der Site, wenn sie feststellen, dass sie ein Computerassistent sein müssen, um dies zu tun. Eine Schaltfläche "Alle aktuellen Bücher herunterladen" würde der Site des Projekts und seinen Benutzern zugute kommen, und sie wird mit Sicherheit produzieren Noch mehr Besucher auf der Website. So ist jeder glücklich.