Ich habe eine Website, die aus regulatorischen Gründen möglicherweise nicht automatisch indiziert oder durchsucht wird. Dies bedeutet, dass wir alle Roboter fernhalten und verhindern müssen, dass sie die Site spinnen.
Offensichtlich hatten wir eine robots.txt-Datei, die von Anfang an nicht erlaubt ist. Das Beobachten der robots.txt-Datei ist jedoch etwas, was nur gut erzogene Roboter tun. Vor kurzem hatten wir einige Probleme mit weniger gut erzogenen Robotern. Ich habe Apache so konfiguriert, dass einige Benutzeragenten gesperrt werden, aber es ist ziemlich einfach, das zu umgehen.
Die Frage ist also, gibt es eine Möglichkeit, Apache zu konfigurieren (möglicherweise durch Installation eines Moduls?), Um roboterähnliches Verhalten zu erkennen und zu reagieren. Irgendwelche anderen Ideen?
Im Moment kann ich nur IP-Adressen verbieten, die auf einer manuellen Überprüfung der Protokolle basieren, und das ist einfach keine praktikable langfristige Strategie.