Als «web-crawlers» getaggte Fragen

Ein Computerprogramm, das für verschiedene Zwecke auf Webseiten zugreift (um Inhalte zu entfernen, Suchmaschinen mit Informationen über Ihre Website zu versorgen usw.)

2
Disqus-Thread-Migration. Fallstricke?
Ich habe eine Site auf eine neue Domain migriert. Die Seite selbst ist ziemlich unkompliziert (sie verwendet Jekyll) und alles ist gut gelaufen - außer der Migration von Disqus-Threads. Ich hatte teilweise Erfolg - einige der Threads wurden erfolgreich migriert, aber nicht alle. Ich habe den Domänenmigrationsassistenten (der einige abgefangen …

2
Ask.com Sitemap Crawler down (für immer)?
Ich habe Ask.comals eine der Suchmaschinen meine Sitemap gepingt. Als ich heute meine Sitemap anpingte, um meine Sitemap neu zu indizieren, wurde auf der Website ( http://submissions.ask.com/ping ) angegeben, dass sie nicht mehr existiert. Ich habe eine DNS-Suche durchgeführt submissions.ask.comund es sieht so Ask.comaus, als hätte die Subdomain entfernt, aber …

3
Taktiken für den Umgang mit sich schlecht benehmenden Robotern
Ich habe eine Website, die aus regulatorischen Gründen möglicherweise nicht automatisch indiziert oder durchsucht wird. Dies bedeutet, dass wir alle Roboter fernhalten und verhindern müssen, dass sie die Site spinnen. Offensichtlich hatten wir eine robots.txt-Datei, die von Anfang an nicht erlaubt ist. Das Beobachten der robots.txt-Datei ist jedoch etwas, was …

1
Sollte ich eine leere ads.txt-Datei für eine Website veröffentlichen, auf der keine Anzeigen geschaltet werden?
Ich habe einige 404-Fehler gesehen, als auf einigen von mir verwalteten Websites ads.txt angefordert wurde. Ich vermute, die Antwort ist möglicherweise identisch mit der Frage nach einer leeren robots.txt-Datei oder gar keiner Datei (verhindern Sie nur einige 404-Fehler). Es fällt mir jedoch schwer, die zugrunde liegenden Konzepte hinter ads.txt zu …


2
Welches Meta-Roboter-Tag wird bevorzugt?
Meine Frau arbeitet an einem Gymnasium in Deutschland. Ich habe kürzlich festgestellt, dass es extrem schwierig ist , die Homepage dieser Schule mit Google zu finden. Ich habe mir den Quellcode der Seite angesehen und glaube, ich habe den Grund gefunden: Es gibt zwei <meta name="robots">Tags; einer ist <meta name="robots" …



1
Bei Googlebot treten JavaScript-Fehler auf, da veraltete HTML-Dateien mit neueren JS-Dateien gerendert werden
Wir sind kürzlich auf ein Problem gestoßen, bei dem wir var GLOBAL_VAR = true;einer HTML-Seite (z. B. ) eine JavaScript-Variable (z. B. ) hinzugefügt /Search/Indexund die separate JS-Datei (z. B. ) aktualisiert haben, /Scripts/search/index.jsum auf diese JS-Variable zuzugreifen und sie zu verwenden. Nachdem wir diese Änderungen live im Web veröffentlicht …


2
Verfolgt der Webcrawler von Google HTML-Importe?
Ist Googlebot - Googles webcrawler - follow - Browser-Seite HTML - Importe wie die folgenden? <link rel="import" href="header.html"> Ich denke darüber nach, Webinhalte auf meinem Webserver zu hosten, der diese Richtlinie verwendet, die im W3C-Entwurf enthalten ist . Ich mache mir jedoch Sorgen, dass der gesamte Text auf meiner Website …



1
Wie lange wartet der Google Bot, nachdem das Dokument fertig ist, bevor er einen Schnappschuss der Webseite erstellt?
Wie lange wartet der Google-Bot beim Crawlen, während der JS seine Arbeit an der Seite ausführt, bis das Javascript ausgeführt wird, nachdem das Dokument fertig ist? Angenommen, ich habe eine AJAX-Antwort, die länger als gewöhnlich dauert. Wie kann sichergestellt werden, dass der Google Bot die inhaltsreiche Website crawlt (mit der …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.