Können Webcrawler statische Seiten anzeigen, ohne einem Link zu ihnen zu folgen?


Antworten:


10

Können sie es sehen? Ja. Können sie es finden? Nicht ohne Hilfe.

Webcrawler finden normalerweise Seiten, die gecrawlt werden sollen, indem sie auf anderen Seiten Links zu ihnen folgen. Einige Crawler (z. B. Suchmaschinen-Crawler) crawlen auch Seiten, die in speziellen XML-Dateien aufgeführt sind. Wenn auf Ihrer Website oder einer anderen Website kein Link zu einer Seite vorhanden ist, wird diese Seite nicht gecrawlt (Seiten, die die URL dieser Seite enthalten, aber im Klartext vorliegen , werden von Google gefunden ).

Sobald eine Seite gefunden und gecrawlt wurde, kann sie jedoch erneut gecrawlt werden, selbst wenn alle Links zu dieser Seite von ihren jeweiligen Websites entfernt wurden. Dies liegt daran, dass gecrawlte Seiten dann indiziert werden (z. B. zur Liste der zu crawlenden Seiten hinzugefügt werden), damit der Crawler sie zu einem späteren Zeitpunkt erneut crawlen kann, um nach Änderungen zu suchen. Wenn Sie dies verhindern möchten, können Sie einen der folgenden Schritte ausführen:

Am effektivsten

  • Entfernen Sie die Seite aus dem Internet
  • Die URL dieser Seite wurde geändert (im Wesentlichen die Seite entfernen und eine neue hinzufügen)
  • Platziere es hinter einem Login

Weniger effektiv

  • Blockieren Sie diese Seite mit einer robots.txt-Datei (die möglicherweise ignoriert wird).
  • Versuchen Sie, fehlerhafte Bots nach IP (die sich bei jedem Besuch ändern kann) oder User-Agent (möglicherweise gefälscht) herauszufiltern.

1

Eine andere Möglichkeit, die Seite zu erkennen, besteht darin, dass Sie Links zu anderen Websites auf dieser Seite haben.

Die URL Ihrer Seite wird in ihren Referrer-Protokollen angezeigt. Eine gute Zeitspanne vieler Webmaster besteht darin, diese Protokolle kurz zu durchsuchen und zu sehen, was andere über ihre Seiten sagen.

Einige Websites bieten anscheinend Zugriff auf diese Protokolle ohne Zugriffsbeschränkung, sodass Crawler sie auch erreichen können ...

Um die Seite wirklich geheim zu halten, lassen Sie sie nicht auf externe Websites verlinken.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.