Welche Bots sind es wirklich wert, auf eine Site gelassen zu werden?


11

Nachdem ich eine Reihe von Bots geschrieben und die enormen Mengen an zufälligen Bots gesehen habe, die zufällig eine Site crawlen, frage ich mich als Webmaster, welche Bots es wirklich wert sind, auf eine Site gelassen zu werden.

Mein erster Gedanke ist, dass das Zulassen von Bots auf der Website möglicherweise echten Datenverkehr auf die Website bringen kann. Gibt es einen Grund, Bots zuzulassen, von denen nicht bekannt ist, dass sie echten Datenverkehr auf eine Site senden, und wie erkennen Sie diese "guten" Bots?


1
+1: gute Frage; Es ist jedoch schwierig, Ihre Frage zu beantworten, da es so viele Bots gibt.
Zistoloen

@ Zistoloen: Ja, ich bin mir bewusst, dass es eine schwierige Frage ist. Der Grund, den ich gefragt habe, ist, dass eine mir bekannte nicht-große Suchmaschine, von der ich weiß, dass sie Milliarden von Seiten indiziert hat, sich darüber beschwert hat, dass sie nicht auf große Mengen des Webs zugreifen können, weil Websites versucht haben, nicht-große Suchmaschinen zu blockieren.
Fehler


@blunders Danke, dass du dir die Zeit genommen hast. Ich hätte es selbst bearbeitet, wenn ich die Frage analysieren könnte :)
DisgruntledGoat

@ DisgruntledGoat: Kein Problem, danke für die Änderungen!
Fehler

Antworten:


11

Im Bereich normaler Bots hängt alles davon ab, was Sie schätzen, und nur Sie können das entscheiden. Natürlich gibt es Google, Bing / MSN / Yahoo! Baidu und Yandex. Dies sind die wichtigsten Suchmaschinen. Es gibt auch die verschiedenen SEO- und Backlink-Sites. Richtig oder falsch, ich erlaube einigen der Großen, auf meine Website zuzugreifen, aber im Allgemeinen handelt es sich um nutzlose Websites. Ich blockiere archive.org nicht nur in robots.txt, sondern auch nach Domainname und IP-Adresse. Dies liegt daran, dass sie robots.txt sehr ignorieren! Dies ist etwas, für das Sie ein Gefühl bekommen müssen. Lassen Sie sich nicht von Agentennamen täuschen. Oft werden sie von schlechten Menschen geschmiedet. Heutzutage erhalte ich Tausende von Seitenanfragen von Quellen, die behaupten, Baidu zu sein, aber nicht. Lernen Sie diese Spinnen anhand von Domainnamen und IP-Adressblöcken kennen und lernen Sie, auf dieser Ebene mit ihnen umzugehen. Die Guten gehorchen robots.txt.

Aber ich muss Sie warnen, es gibt eine TONNE Stealth-Bots, Rogue-Bots, Scraper usw., die Sie häufig durchsuchen und blockieren möchten. Dieser 5uck5! Aber es muss getan werden. Die größte Bedrohung für sie sind heutzutage Links von geringer Qualität zu Ihrer Website. Mein aktualisierter Anti-Bot-Sicherheitscode, den ich in diesem Jahr implementiert habe, hat automatisch 7700 Links von geringer Qualität gelöscht. Natürlich braucht mein Code noch Arbeit, aber Sie verstehen es. Die schlechten Bots stehlen immer noch das Potenzial der Website.

Es wird nicht lange dauern, bis Sie den Dreh raus haben.


1

Ich hatte Probleme mit Baidu-Bots, die meinen Server verlangsamten, während die Suchmaschine fast keinen Verkehr sendete. Diese Bots respektieren die robots.txt-Datei nicht. Um Baidu-Bots zu blockieren, fügen Sie einfach Folgendes in Ihre htccess-Datei ein.

# User-agent: Baiduspider
# Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
# Baiduspider+(+http://www.baidu.com/search/spider.htm)

# IP range
# 180.76

RewriteCond %{REMOTE_ADDR} ^180\.76\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F,L]

Ich hatte auch Probleme damit, dass Bing / Microsoft-Spinnen zu schnell kriechen, im Gegensatz zu Baidu respektieren sie die robots.txt-Datei so;

User-agent: bingbot
Crawl-delay: 1

User-agent: msnbot
Crawl-delay: 1
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.