Während der Versuch, Bots zu blockieren, dazu beitragen kann, Ressourcen freizugeben und Ihre Protokolle zu bereinigen, ist es wichtig zu beachten, dass robots.txt und sogar die Verwendung des Metatags auf Seiten von noindex den Bots-Besuch auf Ihrer Website nicht stoppen. Sie können immer noch gelegentlich Ihre Site crawlen, um festzustellen, ob die von Robotern abgelehnte entfernt wurde. Viele Bots verwenden nicht einmal einen Benutzeragenten und verwenden einen Standardbenutzeragenten. Die Bots, auf die ich mich beziehe, sind in der Regel SEO-Harvesting-Bots, die nach Backlinks suchen und nicht die allgemeinen, die Sie von Suchmaschinen finden.
Anstatt die Bots zu blockieren, sollten Sie diese Bots nur berücksichtigen, wenn Sie Ihre Besucher zählen. Nach einer Weile der aktiven Überwachung Ihrer Website stellen Sie eine grobe Zahl fest, die Bots sind. Die meisten Leute kümmern sich um einmalige Besuche und dies schließt die Bots aus, da sie ständig zurückkehren. In der heutigen Zeit gibt es eine Vielzahl von Servern und Shared Hosting, die diese Bots verarbeiten können. Abgesehen von Seiten, die Sie nicht indizieren möchten, gibt es keinen Grund, diese Bots zu blockieren. Natürlich haben Sie auch schädliche Bots, aber diese werden den User Agent auf keinen Fall verwenden;).
Persönlich halte ich das Blockieren von Robotern für Zeitverschwendung, da sie überhaupt nicht so viel Ressourcen verbrauchen. SEO-Roboter können dabei helfen, indem sie Ihre Website auf PR0-Seiten auflisten, was natürlich Ihren PageRank erhöht und dort automatisiert, sodass Sie nicht bestraft werden von ihnen.
Logs Issue
Sie sollten einen geeigneten Protokoll-Viewer verwenden, mit dem Sie bestimmte Anforderungen herausfiltern können. Dies erleichtert das Überprüfen Ihrer Protokolle. Gute Zuschauer können viele Dinge wie normale Besuche, 404s und so weiter herausfiltern.