Können Webcrawler statische Seiten anzeigen, ohne einem Link zu ihnen zu folgen?

8

Wenn ich eine statische Seite in einer Domain erstelle (http://www.domain.com/page.html), kann ein Crawler sie dann weiterhin sehen, wenn auf der Site keine Links dazu vorhanden sind?

web-crawlers

— geteilt
quelle

Ja, senden Sie einfach den Link in Skype und Bing findet ihn und indiziert ihn für Sie .

— Chloe

10

Können sie es sehen? Ja. Können sie es finden? Nicht ohne Hilfe.

Webcrawler finden normalerweise Seiten, die gecrawlt werden sollen, indem sie auf anderen Seiten Links zu ihnen folgen. Einige Crawler (z. B. Suchmaschinen-Crawler) crawlen auch Seiten, die in speziellen XML-Dateien aufgeführt sind. Wenn auf Ihrer Website oder einer anderen Website kein Link zu einer Seite vorhanden ist, wird diese Seite nicht gecrawlt (Seiten, die die URL dieser Seite enthalten, aber im Klartext vorliegen , werden von Google gefunden ).

Sobald eine Seite gefunden und gecrawlt wurde, kann sie jedoch erneut gecrawlt werden, selbst wenn alle Links zu dieser Seite von ihren jeweiligen Websites entfernt wurden. Dies liegt daran, dass gecrawlte Seiten dann indiziert werden (z. B. zur Liste der zu crawlenden Seiten hinzugefügt werden), damit der Crawler sie zu einem späteren Zeitpunkt erneut crawlen kann, um nach Änderungen zu suchen. Wenn Sie dies verhindern möchten, können Sie einen der folgenden Schritte ausführen:

Am effektivsten

Entfernen Sie die Seite aus dem Internet
Die URL dieser Seite wurde geändert (im Wesentlichen die Seite entfernen und eine neue hinzufügen)
Platziere es hinter einem Login

Weniger effektiv

Blockieren Sie diese Seite mit einer robots.txt-Datei (die möglicherweise ignoriert wird).
Versuchen Sie, fehlerhafte Bots nach IP (die sich bei jedem Besuch ändern kann) oder User-Agent (möglicherweise gefälscht) herauszufiltern.

— John Conde
quelle

1

Eine andere Möglichkeit, die Seite zu erkennen, besteht darin, dass Sie Links zu anderen Websites auf dieser Seite haben.

Die URL Ihrer Seite wird in ihren Referrer-Protokollen angezeigt. Eine gute Zeitspanne vieler Webmaster besteht darin, diese Protokolle kurz zu durchsuchen und zu sehen, was andere über ihre Seiten sagen.

Einige Websites bieten anscheinend Zugriff auf diese Protokolle ohne Zugriffsbeschränkung, sodass Crawler sie auch erreichen können ...

Um die Seite wirklich geheim zu halten, lassen Sie sie nicht auf externe Websites verlinken.

— Louis Somers
quelle