Als «web-crawlers» getaggte Fragen

Ein Computerprogramm, das für verschiedene Zwecke auf Webseiten zugreift (um Inhalte zu entfernen, Suchmaschinen mit Informationen über Ihre Website zu versorgen usw.)

4
Status von Crawlable Ajax?
Ich habe gesehen, dass Google einen netten Vorschlag / Standard für das Crawlen von Ajax-Anwendungen über # hat! (Hash Bang). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Meine Fragen sind: Verwenden sie diesen "Vorschlag" derzeit bereits in der realen Welt? Verwenden oder planen andere Suchmaschinen - speziell Bing - diese ebenfalls?



2
Die Google Webmaster-Tools teilen mir mit, dass Roboter den Zugriff auf die Sitemap blockieren
Das ist meine robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Die Google Webmaster-Tools sagen mir jedoch, dass Roboter den Zugriff auf die Sitemap blockieren: Beim Versuch, auf Ihre Sitemap zuzugreifen, ist ein Fehler aufgetreten. Stellen Sie sicher, dass Ihre Sitemap unseren Richtlinien entspricht und an dem von …





1
Wie funktioniert "Noindex:" in robots.txt?
Ich bin heute in meinen SEO-Nachrichten auf diesen Artikel gestoßen. Es scheint zu implizieren, dass Sie Noindex:zusätzlich zu den Standardanweisungen Disallow:in robots.txt Direktiven verwenden können . Disallow: /page-one.html Noindex: /page-two.html Es scheint, als würde dies verhindern, dass Suchmaschinen Seite eins crawlen und Seite zwei indizieren. Wird diese robots.txt- Direktive von …

2
Erlauben Sie nur Google- und Bing-Bots, eine Website zu crawlen
Ich verwende die folgende robots.txt-Datei für eine Site: Ziel ist es, Googlebot und Bingbot den Zugriff auf die Site mit Ausnahme der Seite zu ermöglichen /bedven/bedrijf/*und alle anderen Bots daran zu hindern, die Site zu crawlen . User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: …

1
Kombinieren Sie Benutzeragenten in robots.txt
Können Benutzeragenten zusammen aufgelistet werden, gefolgt von ihren allgemeinen Regeln wie in einer robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

2
Pluszeichen vor URLs in Benutzeragenten
Ich habe einen kleinen Webcrawler ausgeführt und musste mich entscheiden, welchen Benutzeragenten ich dafür verwenden soll. Listen von Crawler-Agenten sowie Wikipedia schlagen das folgende Format vor: examplebot/1.2 (+http://www.example.com/bot.html) Einige Bots lassen jedoch das Pluszeichen vor der URL weg. Und ich frage mich, was es überhaupt bedeutet, konnte aber keine Erklärung …

1
Wie hat Google es geschafft, meine 403 Seiten zu crawlen?
Ich hatte ein paar private Dateien in einem Verzeichnis in meinem Schulordner. Sie können sehen, dass die Dateien vorhanden sind, indem Sie zu myschool.edu/myusername/myfolder gehen. Wenn Sie jedoch versuchen, über myschool.edu/myusername/myfolder/myfile.html auf die Dateien selbst zuzugreifen, wird ein 403-Fehler zurückgegeben. Und doch hat Google es irgendwie geschafft, den Inhalt dieser …

6
Wie kann ich den archive.org-Bot richtig (dis) zulassen? Haben sich die Dinge geändert, wenn ja, wann?
Ich habe eine Website, die ich meistens nicht von Suchmaschinen indizieren möchte, aber ich möchte sie auf archive.org für immer behalten. Also robots.txtfängt mein damit an: User-agent: * Disallow: / Laut archive.org muss ich heute Folgendes in mein hinzufügen robots.txt, um ihre Bots zuzulassen: User-agent: ia_archiver Disallow: Aber ich hatte …

2
Sollten wir das AJAX-Crawling-Schema fallen lassen?
Jetzt hat Google das AJAX-Crawling-Schema abgelehnt . Sie sagen, dass sie sich nicht die Mühe machen sollen, es auf neuen Websites zu implementieren, da es nicht mehr benötigt wird, da Googlebot jetzt kein Problem damit hat, dynamische Inhalte anzusehen. Sollten wir dieser Aussage sofort vertrauen oder uns besser für eine …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.