Warum crawlt baidu meine Seite wie verrückt?


12

Wenn ich mein Apache-Protokoll überprüfe, kann ich feststellen, dass baidu meine Website in den letzten 2 Wochen 10 Mal am Tag gecrawlt hat.

Es ist nicht so, dass es mich interessiert, aber ich bin wirklich neugierig, warum er das tut. Es ist eine sehr kleine Single-Page-Website mit wenig eingehenden Links.

Gibt es einen Grund dafür?

220.181.108.169 [10/Mar/2012:10:41:29 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
180.76.5.197 [10/Mar/2012:11:02:02 +0100] "GET / ...robots.txt +(+http://www.baidu.com/search/spider.htm)"
123.125.71.100 [10/Mar/2012:11:33:15 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.167 [10/Mar/2012:11:33:52 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.116 [10/Mar/2012:12:24:48 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.172 [10/Mar/2012:12:25:05 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.111 [10/Mar/2012:13:33:22 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.167 [10/Mar/2012:13:34:03 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.168 [10/Mar/2012:14:12:05 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.107 [10/Mar/2012:14:23:41 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.176 [10/Mar/2012:14:23:58 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.94 [10/Mar/2012:15:25:59 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.183 [10/Mar/2012:15:26:21 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.92 [10/Mar/2012:17:45:55 +0100] "GET / ...robots.txt +http://www.baidu.com/search/spider.html)"
123.125.71.71 [10/Mar/2012:17:45:57 +0100] "GET / ...robots.txt +http://www.baidu.com/search/spider.html)"
123.125.71.79 [10/Mar/2012:17:46:04 +0100] "GET / ...robots.txt +http://www.baidu.com/search/spider.html)"
123.125.71.103 [10/Mar/2012:17:47:32 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.179 [10/Mar/2012:17:48:37 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.108 [10/Mar/2012:18:37:21 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.185 [10/Mar/2012:18:38:13 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.96 [10/Mar/2012:19:25:50 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.169 [10/Mar/2012:19:25:59 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.101 [10/Mar/2012:20:25:51 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.176 [10/Mar/2012:20:26:09 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.105 [10/Mar/2012:21:33:38 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.178 [10/Mar/2012:21:34:15 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
180.76.5.170 [10/Mar/2012:21:57:39 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.98 [10/Mar/2012:22:26:13 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.175 [10/Mar/2012:22:26:33 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.104 [10/Mar/2012:23:34:09 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.169 [10/Mar/2012:23:34:48 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.171 [10/Mar/2012:23:52:22 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.168 [10/Mar/2012:23:52:22 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.110 [11/Mar/2012:00:33:52 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.184 [11/Mar/2012:00:34:27 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.103 [11/Mar/2012:02:37:21 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.177 [11/Mar/2012:02:37:58 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.97 [11/Mar/2012:03:34:30 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.172 [11/Mar/2012:03:35:07 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.107 [11/Mar/2012:04:35:33 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.178 [11/Mar/2012:04:36:16 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.115 [11/Mar/2012:05:34:31 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.187 [11/Mar/2012:05:35:12 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.97 [11/Mar/2012:06:24:17 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.181 [11/Mar/2012:06:24:32 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.112 [11/Mar/2012:07:40:27 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.187 [11/Mar/2012:07:41:17 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.95 [11/Mar/2012:08:29:42 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.175 [11/Mar/2012:08:30:07 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.105 [11/Mar/2012:09:35:23 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.184 [11/Mar/2012:09:36:05 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
123.125.71.106 [11/Mar/2012:10:39:32 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.165 [11/Mar/2012:10:40:11 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"
220.181.108.171 [11/Mar/2012:11:23:57 +0100] "GET / ... +http://www.baidu.com/search/spider.html)"

Erhalten Sie organischen Traffic von Baidu.com? Wenn nein, würde ich die Spinne blockieren, wenn sie Ihre Bandbreite auf diese Weise aufzehrt.
Anagio

Ich bin mir nicht sicher, was Sie mit organischem Verkehr meinen, aber wenn Sie von Benutzern meinen, die die baidu-Suchmaschine verwenden, lautet die Antwort: Nein, tue ich nicht. Es braucht nicht viel Bandbreite oder Ressourcen. Es ist nur so, dass ich neugierig bin, warum baidu so viel krabbelt.
Yokoloko

1
Ja, das ist, was ich meine. Wenn es nicht viel Bandbreite beansprucht, würde ich mir keine Sorgen machen, es sei denn, es wird fortgesetzt. Sie konnten sie immer mailen. "Wenn Sie einen unangemessenen Zugang von Baiduspider finden, informieren Sie uns bitte unter spiderhelp@baidu.com"
Anagio

1
Ich würde eine Suchmaschinenspinne nur blockieren, wenn Sie niemals Suchzugriffe von ihnen erhalten möchten, nicht nur, weil Sie derzeit keine erhalten - insbesondere, wenn man bedenkt, dass Baidu die drittgrößte Suchmaschine der Welt in Bezug auf den Markt ist Teilen.
Majestätsbeleidigung

3
Baidu ist sehr aggressiv, bis genug von Ihrer Website indiziert ist. Es gibt Schaber, die behaupten, Baidu zu sein. Ich benutze botsvsbrowsers.com , um sie zu identifizieren und zu verbannen , wenn die Dinge außer Kontrolle geraten. Yandex kann die gleiche Art von Verkehr erzeugen.
Fiasco Labs

Antworten:


7

Es hört sich nicht nach etwas an, über das Sie sich zu viele Sorgen machen sollten. Google crawlt einige meiner Websites auf ähnliche Weise, aber es könnte sich um einen gefälschten Bot handeln. Lesen Sie die folgenden Links.

In den häufig gestellten Fragen zu Baidu Spider (integrierte Übersetzung von Chrome) heißt es:

4. Warum durchsucht Baiduspider meine Website ständig? Um sicherzustellen, dass die neuesten Informationen angezeigt werden, durchsucht Baiduspider neue Seiten oder Seiten, die auf Ihrer Site häufig erneuert werden. Bitte überprüfen Sie das Protokoll, um festzustellen, ob das Crawlen von Baiduspider zumutbar ist.

Um zu vermeiden, dass Spammer oder andere Unruhestifter, die vorgeben, Baiduspider zu sein, übermäßig viel kriechen, können Sie das Protokoll überprüfen. Wenn Sie ungewöhnliches Crawling feststellen, informieren Sie uns bitte unter spiderhelp@baidu.com und geben Sie das Protokoll von Baiduspider an.

Baidu bietet eine eigene Version der Webmaster-Tools an (die Übersetzungsfunktion von Chrome wird benötigt, wenn Sie auf die Tools selbst zugreifen). Wenn Sie sich für diese Tools anmelden, erhalten Sie möglicherweise einige Antworten. Google WMT bietet nur eingeschränkte Möglichkeiten zum Verwalten der Crawling-Rate. Möglicherweise bietet das Tool ähnliche Funktionen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.