Warum lädt Google Binärdateien von meiner Website herunter und verwendet Bandbreite?

Seit ungefähr Mitte August 2014 haben mehrere Google-Server ungefähr einmal pro Woche alle (sehr) großen Binärdateien auf meiner Website heruntergeladen. Die IP-Adressen werden alle als Eigentum von Google angezeigt und sehen folgendermaßen aus: google-proxy-66-249-88-199.google.com. Dies sind GET-Anforderungen, die sich stark auf meinen Serververkehr auswirken.

Zuvor habe ich keinen Datenverkehr von diesen Google-Proxy-IPs gesehen, daher scheint dies etwas relativ Neues zu sein. Ich sehe alle Arten von Datenverkehr von anderen Google IPs, alle nur Googlebot- und HEAD-Anfragen.

Ich würde mir darüber keine Sorgen machen, außer dass all diese Dateien ungefähr jede Woche von Google heruntergeladen werden. Die verwendete Bandbreite wird langsam zu groß.

Ich habe spekuliert, dass viele dieser Dateien ausführbare Windows-Dateien sind und Google sie möglicherweise herunterlädt, um Malware-Scans durchzuführen. Auch wenn das stimmt, muss das wirklich jede Woche passieren?

Beispiel für Datenverkehr von Google Proxy-IPs im November:

google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB

Update Nr. 1: Ich habe vergessen zu erwähnen, dass sich die fraglichen Dateien bereits in der robots.txt-Datei der Site befinden. Damit die robots.txt-Konfiguration ordnungsgemäß funktioniert, habe ich auch den robots.txt-Tester in den Google Webmaster-Tools verwendet, der zeigt, dass die Dateien definitiv für alle Google-Bots blockiert werden, mit einer Ausnahme: Adsbot-Google. Ich bin mir auch nicht sicher, worum es geht. UND ich habe Google nach einigen Dateien durchsucht, die NICHT in den Suchergebnissen angezeigt werden.

Update Nr. 2: Beispiel: Zwischen 5:12 Uhr und 5:18 Uhr PST am 17. November haben etwa ein halbes Dutzend IPs (alle Google-Proxys) GETs für alle fraglichen Binärdateien durchgeführt, insgesamt 27. Am 4. November zwischen 14.09 Uhr und 14.15 Uhr PST haben dieselben IPs im Grunde dasselbe getan.

Update Nr. 3: An diesem Punkt scheint es klar zu sein, dass diese IPs zwar gültige Google-IPs sind, jedoch Teil des Proxy-Dienstes von Google und nicht Teil des Web-Crawler-Systems von Google. Da es sich um Proxy-Adressen handelt, kann nicht festgestellt werden, woher die GET-Anforderungen tatsächlich stammen oder ob sie von einem oder mehreren Orten stammen. Aufgrund der sporadischen Natur der GETs scheint es nicht so, als ob etwas Schändliches vor sich geht. Es ist wahrscheinlich nur jemand, der sich entscheidet, alle Binärdateien herunterzuladen, während er den Proxy-Dienst von Google verwendet. Leider scheint dieser Service völlig undokumentiert zu sein, was nicht hilft. Aus Sicht eines Site-Administrators sind Proxys eher ärgerlich. Ich möchte sie nicht blockieren, weil sie legitime Verwendungszwecke haben. Sie können aber auch missbraucht werden.

google proxy bandwidth

— boot13
quelle

Gute Frage. Ich habe es hochgestimmt! Sie sollten diese mit robots.txt sicher blockieren. Warum Google ausführbare Dateien herunterlädt, ist mir ein Rätsel. Ihre Theorie scheint gut zu sein, aber irgendwie bin ich mir aufgrund der Häufigkeit nicht sicher. Es scheint ziemlich seltsam. Dies scheinen gültige Googlebot-IP-Adressen zu sein, obwohl ich google-proxy-66-102-6-104.google.com nicht in meiner Liste habe.

— Schranknoc

Ich habe vergessen zu erwähnen, dass sich die fraglichen Dateien bereits in der robots.txt-Datei der Site befinden. Siehe Update Nr. 1 oben.

— Boot13

Du hast mich verwirrt. Ich habe jeden Moment einen Auftragnehmer erwartet, also muss ich darüber nachdenken. Google hat lustige Dinge mit seinen Domainnamen und IP-Adresszuweisungen gemacht und es gab einige Überschneidungen mit verschiedenen Google-Diensten, einschließlich Hosting und anderen, bei denen Bots von Personen im IP-Adressraum von Google angezeigt werden können. Ich habe jedoch nicht gesehen, dass sie die IP-Adresse von Googlebot verwenden Platz. Ich wünschte, Google würde freien Speicherplatz für die verschiedenen Suchprozesse ohne oder mit geringer Überlappung zuweisen, damit Sicherheitssysteme diesen IP-Adressen ordnungsgemäß vertrauen können.

— Closetnoc

Ich habe einige Nachforschungen zu dieser Frage angestellt und einige interessante Dinge gefunden, wie zum Beispiel:

1. Ist es ein gefälschter Crawler? -> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c

Fazit des Anwenders:

Diese "Crawler" sind keine Crawler, sondern Teil der Live-Website-Vorschau, die in der Google-Suchmaschine verwendet wird.

Ich habe dies versucht, um eine meiner Websites in der Vorschau anzuzeigen, und ja, da ist eine blockierte IP-Nachricht.

Wenn Benutzer eine Vorschau Ihrer Website anzeigen sollen, müssen Sie diese "Crawler" akzeptieren.

Wie andere sagten: "Die Root-Domain dieser URL ist google.com und das kann nicht einfach gefälscht werden."

Fazit: Sie können diesen Bots oder Crawlern vertrauen und es wird verwendet, um eine Vorschau in der Google-Suche anzuzeigen.

Wir wissen, dass die Live-Vorschau Ihre Dateien nicht herunterlädt. Fahren wir also mit Frage 2 fort.

2. Ist es Teil der Google-Dienste? -> Ist dieser Google-Proxy ein gefälschter Crawler: google-proxy-66-249-81-131.google.com?

Fazit:

Ich denke, einige Leute nutzen Google-Dienste (wie Google Übersetzer, Google Mobile usw.) für den Zugriff auf (blockierte) Websites (in Schulen usw.), aber auch für DOS-Angriffe und ähnliche Aktivitäten.

Meine Vermutung dazu ist die gleiche wie oben. Jemand versucht, über einen Google-Dienst auf Ihre Dateien zuzugreifen, z. B. einen Übersetzer.

Wenn, wie Sie sagen, die Dateien bereits von der robots.txt blockiert werden, kann dies nur eine manuelle Anforderung sein.

BEARBEITEN: Um den OP-Kommentar ausführlich zu behandeln:

Können die Crawler die robots.txt ignorieren? Ja. Hier ist eine Liste, von der ich glaube, dass Google dies nicht tut. Dies bedeutet, dass es sich um andere Bots handeln kann, die Google-Proxys verwenden.

Kann es ein schlechter Bot sein? Ja, und dafür empfehle ich:

.htaccess-Verbot:

 RewriteCond %{REMOTE_HOST} ^209.133.111..* [OR]
 RewriteCond %{HTTP_USER_AGENT} Spider [OR]
 RewriteCond %{HTTP_USER_AGENT} Slurp
 RewriteRule ^.*$ X.html [L]

Dieser Code kann IPs oder Benutzeragenten verbieten.

Oder verwenden Sie eine Spinnenfalle, die hier vorgestellt wird

Ich halte meine Meinung, dass dies eine manuelle Anfrage ist.

— nunorbatista
quelle

Ich habe diese Antworten auch gesehen, aber sie schienen mein spezifisches Problem nicht anzusprechen. Sie haben vielleicht Recht, dass Google Proxy irgendwie missbraucht wird. In diesem Fall werde ich es höchstwahrscheinlich vollständig blockieren, was irgendwie lahm ist. Mein Verständnis von robots.txt ist, dass Crawler-Software es ignorieren kann. Freundliche Bots sollen es ehren, und die meisten tun es, aber Proxies sind (ich denke) anders.

— Boot13

@ boot13 Sei aber vorsichtig. Dies sind gültige Googlebot-IP-Adressen. Wenn Sie es also blockieren, blockieren Sie es nur für diese Dateien. Angenommen, Sie verwenden Apache, sollten Sie dies mit .htaccess tun können. Dies kann jedoch zu anderen Problemen führen. Achten Sie daher bei Nachrichten auf die Google Webmaster-Tools.

— Schranknoc

@ boot13 Ich habe meine Antwort aktualisiert. Können Sie überprüfen, ob die Zugriffe am selben Tag / zur selben Stunde erfolgen oder zufällig sind?

— Nunorbatista

@unorbatista: sie scheinen zufällig. Ich habe meine Frage einige Male aktualisiert.

— Boot13

@nunorbatista: siehe Update Nr. 3 oben. Es handelt sich nicht um Googlebot oder einen anderen Crawler, sondern um den Proxy-Service von Google. Es hat nichts mit der Live-Site-Vorschau von Google zu tun. Es sieht so aus, als hätten eine oder mehrere Personen die Binärdateien gerade über Google Proxy heruntergeladen, um möglicherweise einen lokalen Block oder eine Einschränkung zu umgehen. Es ist unwahrscheinlich, dass der Vorschlag für eine Spinnenfalle hilft, da der Verkehr anscheinend kein Bot ist. Ich möchte verhindern, dass Google Proxy-IPs auf den Ordner zugreifen, der die Binärdateien enthält. Ich werde versuchen, den htaccess-Code zu verwenden, aber der Downloader kann natürlich immer zu einem anderen Proxy wechseln, sodass dies möglicherweise sinnlos ist.

— Boot13