Wenn Sie gzip'ed-Inhalt anfordern (unter Verwendung des richtigen accept-encoding: gzip-Headers), kann wget den Inhalt meines Erachtens nicht lesen. So erhalten Sie eine einzelne gezippte Datei auf der Festplatte für die erste Seite, die Sie aufgerufen haben, aber keinen anderen Inhalt.
Das heißt, Sie können wget nicht verwenden, um gezippte Inhalte anzufordern und gleichzeitig die gesamte Website erneut aufzurufen.
Ich denke, es gibt einen Patch, mit dem wget diese Funktion unterstützt, der jedoch nicht in der Standard-Distributionsversion enthalten ist.
Wenn Sie das -S-Flag angeben, können Sie feststellen, ob der Webserver mit dem richtigen Inhaltstyp antwortet. Beispielsweise,
wget -S --header="accept-encoding: gzip" wordpress.com
--2011-06-17 16:06:46-- http://wordpress.com/
Resolving wordpress.com (wordpress.com)... 72.233.104.124, 74.200.247.60, 76.74.254.126
Connecting to wordpress.com (wordpress.com)|72.233.104.124|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Server: nginx
Date: Fri, 17 Jun 2011 15:06:47 GMT
Content-Type: text/html; charset=UTF-8
Connection: close
Vary: Accept-Encoding
Last-Modified: Fri, 17 Jun 2011 15:04:57 +0000
Cache-Control: max-age=190, must-revalidate
Vary: Cookie
X-hacker: If you're reading this, you should visit automattic.com/jobs and apply to join the fun, mention this header.
X-Pingback: http://wordpress.com/xmlrpc.php
Link: <http://wp.me/1>; rel=shortlink
X-nananana: Batcache
Content-Encoding: gzip
Length: unspecified [text/html]
Die Inhaltskodierung gibt eindeutig gzip an, jedoch für linux.about.com (derzeit).
wget -S --header="accept-encoding: gzip" linux.about.com
--2011-06-17 16:12:55-- http://linux.about.com/
Resolving linux.about.com (linux.about.com)... 207.241.148.80
Connecting to linux.about.com (linux.about.com)|207.241.148.80|:80... connected.
HTTP request sent, awaiting response...
HTTP/1.1 200 OK
Date: Fri, 17 Jun 2011 15:12:56 GMT
Server: Apache
Set-Cookie: TMog=B6HFCs2H20kA1I4N; domain=.about.com; path=/; expires=Sat, 22-Sep-12 14:19:35 GMT
Set-Cookie: Mint=B6HFCs2H20kA1I4N; domain=.about.com; path=/
Set-Cookie: zBT=1; domain=.about.com; path=/
Vary: *
PRAGMA: no-cache
P3P: CP="IDC DSP COR DEVa TAIa OUR BUS UNI"
Cache-Control: max-age=-3600
Expires: Fri, 17 Jun 2011 14:12:56 GMT
Connection: close
Content-Type: text/html
Length: unspecified [text/html]
Es gibt Text / HTML zurück.
Da bei einigen älteren Browsern immer noch Probleme mit gzip-codiertem Inhalt auftreten, wird dieser auf vielen Websites nur basierend auf der Browseridentifikation aktiviert. Sie schalten es oft standardmäßig aus und nur dann, wenn sie wissen, dass der Browser es unterstützt - und normalerweise nehmen sie wget nicht in diese Liste auf. Dies bedeutet, dass Sie möglicherweise feststellen, dass wget niemals gzip-Inhalte zurückgibt, auch wenn die Site dies für Ihren Browser zu tun scheint.