In welchem Fall sollte ich lieber Wget als einen Browser verwenden?
Ich habe gehört, dass Richard Stallman es aus Gründen der Anonymität anstelle eines Browsers verwendet. Und was sieht der Server, wenn Sie seine Dateien mit Wget erhalten?
In welchem Fall sollte ich lieber Wget als einen Browser verwenden?
Ich habe gehört, dass Richard Stallman es aus Gründen der Anonymität anstelle eines Browsers verwendet. Und was sieht der Server, wenn Sie seine Dateien mit Wget erhalten?
Antworten:
Normalerweise würden Sie es niemals "anstelle eines Browsers" verwenden. Browser rendern HTML, machen Links anklickbar (anstatt die URL manuell in einen anderen wget-Befehl kopieren zu müssen) usw. Es gibt buchstäblich keinen Vorteil, wget als Mensch zu verwenden. Wenn Sie sich Gedanken über den Datenschutz machen, gibt es eine Million Möglichkeiten, einen Browser zu bereinigen (oder Sie können einen weniger nützlichen Browser wie Lynx verwenden, wenn Sie wirklich Barebones erhalten möchten, ohne den Anschein einer menschlichen Benutzeroberfläche zu zerstören).
Wget wird hauptsächlich verwendet, wenn Sie eine schnelle, kostengünstige, skriptfähige / Befehlszeilen-Methode zum Herunterladen von Dateien benötigen. So können Sie beispielsweise wget in ein Skript einfügen, um eine Webseite herunterzuladen, die häufig mit neuen Daten aktualisiert wird. Dies ist etwas, wofür ein Browser nicht wirklich verwendet werden kann. Sie können die verschiedenen Optionen von wget verwenden, um eine Website zu crawlen und automatisch zu speichern, was die meisten Browser nicht können, zumindest nicht ohne Erweiterungen.
Kurz gesagt, Browser sind Anwendungen für Menschen, die ins Internet schauen. Wget ist ein Tool für Maschinen und Power-User, die Daten über HTTP übertragen. Sehr ähnlich, was sie tun (Dateien von Websites ziehen), aber völlig anders in ihrer Verwendung.
In Bezug darauf, was Server "sehen", wenn Sie Dinge mit wget erhalten: Alle HTTP-Clients (Browser, wget, curl, andere ähnliche Anwendungen) übertragen das, was als "User Agent" bezeichnet wird. Dies ist nur eine Zeichenfolge, die den Browser beschreibt (oder heutzutage). beschreibt, welche Browserfunktionen es hat). Dies kann verwendet werden, um je nach Browser des Nutzers unterschiedliche Inhalte anzuzeigen (z. B. versucht Google, Chrome nicht für Personen zu bewerben, die Chrome bereits verwenden). Einige Idioten versuchen, Power-User-Tricks zu blockieren, indem sie den User-Agent-String von wget blockieren, aber Sie können einfach einen Chrome-User-Agent-String fälschen, um das zu umgehen. Häufig wird es nur für Statistiken verwendet, damit Sie wissen, wie beliebt die verschiedenen Browser sind und welche Sie am gründlichsten testen müssen.
Wenn Sie die Crawling-Funktionen von wget verwenden, werden auf dem Server viele schnelle Anfragen in meist alphabetischer Reihenfolge angezeigt. Es ist ein totes Werbegeschenk, dass Sie ihre Website kratzen. Es sieht ganz anders aus als das Surfen eines Benutzers. Wenn ein menschlicher Benutzer Anforderungen in einem Browser vornimmt, werden nach jeder Seitenanforderung alle Bilder auf dieser Seite angezeigt, und es tritt eine Verzögerung auf. Anschließend wird eine andere zufällige Seite (oder möglicherweise eine Reihe von Seiten mit einem eindeutigen Zweck) angefordert. .
Wie bereits erwähnt, wget
hat es den Vorteil, dass es nicht mit Add-Ons, Cookies und Cache gebündelt wird, wodurch es möglicherweise stabiler und sicherer wird. Aber Browser und haben wget
eigentlich ganz andere normale Verwendungsmöglichkeiten.
wget
ist ein Befehlszeilenprogramm zum Abrufen von Inhalten, nicht zum Präsentieren von Inhalten. Es kann verwendet werden, um alles über FTP, HTTP und HTTPS abzurufen und herunterzuladen, einschließlich aller Dateitypen (HTML, Bilder, Binärdateien usw.).
Für den Server wird nur ein anderer Unterschied angezeigt, es user agent
sei denn, Sie verwenden das --user-agent
Argument, um den eines Browsers anzugeben. In diesem Fall sieht der Server keinen Unterschied.
1) Downloads, die eher von einem Skript als von einem Menschen initiiert wurden
2) Herunterladen ganzer Sites (oder Fragmente von Sites) anstatt einzelner Seiten. (Wget kann automatisch Links folgen.)
Wget verfügt über einige Befehlszeilenoptionen, mit denen gesteuert werden kann, was der Server sieht und was er denken kann, einschließlich willkürlicher Verzögerungen zwischen den Anforderungen zum Herunterladen von Seiten. Wenn der Standortserver jedoch über Anti-Bot-Richtlinien verfügt, verschwenden Sie häufig viel Zeit und Verkehr, bevor Sie ein akzeptables Ergebnis erzielen.
Wenn Sie einen Browser verwenden, ist alles in ihm aktiv, einschließlich unerwünschter Addons und sogar Malware, während wget ein einfacher Befehl ist, der Sachen herunterlädt und absolut nichts anderes tut.
Der Browser ist nicht unbedingt weniger sicher, aber möglicherweise auch.
Die Server "sehen" wie gewohnt eine Download-Anfrage.
Der Browser kann Ihre Aktivitäten in Verlaufs- und Cachedateien aufzeichnen.
wget hat keine speicherretention.
Das heißt, ein Browser ist praktischer und es ist mir egal, ob die NSA herausfindet, dass ich ihn 4.7.2-040702-generic
letzte Woche heruntergeladen habe . Ich verwende meinen Browser für Online-Banking und Paypal, was vermutlich wichtiger ist als die meisten Dateien, die ich mit wget herunterladen kann.
Als Entwickler, der ferne Ubuntu-Installationen verwendet, macht es oft wenig Sinn, die OS-GUI zu installieren. In dieser Befehlszeilenumgebung ist wget ein wichtiges Tool zum Herunterladen von Dateien aus dem Web.
Ich bin mir nicht mal sicher, welche Browser, wenn überhaupt, vom Terminal aus ausgeführt werden können.
wget
aus "Sicherheitsgründen" verwendet?