Ich verwende die folgende robots.txt-Datei für eine Site: Ziel ist es, Googlebot und Bingbot den Zugriff auf die Site mit Ausnahme der Seite zu ermöglichen /bedven/bedrijf/*
und alle anderen Bots daran zu hindern, die Site zu crawlen .
User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: *
Disallow: /
Verbietet die letzte Regel User-agent: * Disallow: /
, dass alle Bots alle Seiten der Site crawlen?
robots.txt
sowieso völlig ignorieren
robots.txt
, oder zumindest die Disallow: /
Regel. Wenn Ihre persönliche Website in den Boden gehämmert wird, weil ein Bot-Programmierer nie in Betracht gezogen hat, dass der Server ein Raspberry Pi am falschen Ende einer 256-kbit-Verbindung sein könnte, ist ein solcher pauschaler Ausschluss hilfreich.