Als «web-crawlers» getaggte Fragen

Ein Computerprogramm, das für verschiedene Zwecke auf Webseiten zugreift (um Inhalte zu entfernen, Suchmaschinen mit Informationen über Ihre Website zu versorgen usw.)


1
Bingbot-Anforderung für trafficbasedsspsitemap.xml, die nicht vorhanden ist
In den Protokollen für eine von mir verwaltete Website wird eine Anfrage nach einer nicht vorhandenen Datei von Bingbot angezeigt. Die Details der Anfrage sind Pfad: /trafficbasedsspsitemap.xml Useragent: "Mozilla / 5.0 (kompatibel; Bingbot / 2.0; + http://www.bing.com/bingbot.htm )" IP-Adresse: 65.55.213.244 (Reverse Lookup wird in msnbot-65-55-213-244.search.msn.com aufgelöst. ) Aus welchem ​​Grund …


4
Ist die Yahoo-Suche jetzt die gleiche wie die Bing-Suche?
Wir hatten in der Vergangenheit einige schwerwiegende Probleme mit der (unglaublich) schlecht geschriebenen Spinne von Yahoo und haben sie daher blockiert. Marco Arment von Tumblr teilte uns am 31.08.2009 auch seine Frustrationen mit, was ein Faktor dafür war, dass wir sie blockierten. [Yahoo's Spider] hat uns seit ungefähr 5:30 EST …


6
Gutes Tool, um meine Website zu crawlen und mir zu helfen, tote und nicht verknüpfte Dateien zu finden [geschlossen]
Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage, damit sie für Webmasters Stack Exchange zum Thema gehört . Geschlossen vor 6 Jahren . Ich habe eine ziemlich große Legacy-Site mit buchstäblich Tausenden von PDFs, die manchmal …


3
Welchen User Agent soll ich einstellen?
Es gibt Ask bot, der diesen Header setzt: Mozilla/2.0 (compatible; Ask Jeeves/Teoma) In Anbetracht dessen habe ich folgende Fragen: Welchen User Agent soll ich verwenden, wenn ich einen Webcrawler namens Goofy schreibe? Was ist der Unterschied wenn ich Mozilla/2.0oder lege Mozilla/5.0? Weitere Vorschläge zur Formatierung meines User Agents gemäß den …

3
Kann sich robots.txt im Unterverzeichnis eines Servers befinden?
Ich habe ein Unterverzeichnis, das ich vor den Suchmaschinen-Webcrawlern verstecken möchte. Eine Möglichkeit, dies zu tun, ist die Verwendung von a robots.txtim Stammverzeichnis des Servers (die Standardmethode). Jeder, der die URL der Website kennt und über grundlegende Webkenntnisse verfügt, kann auf den Inhalt von robots.txt zugreifen und die unzulässigen Verzeichnisse …

3
SEO - Responsive Website und doppelte Menüs
Immer wenn ich eine Responsive-Website erstelle, erstelle ich normalerweise zwei Menüs: 1 ausgeblendet und für Mobilgeräte verwendet und das andere als Hauptmenü angezeigt und dann ausgeblendet, um das Mobilmenü anzuzeigen. Wann immer es um SEO und Spinnen geht, die auf der Website navigieren, bekomme ich das Problem, dass ich doppelte …

7
Wie man baidu Spinnen blockiert
Die meisten meiner Besuche stammen von Baidu-Spinnen. Ich denke, es hilft Suchmaschinen überhaupt nicht, also denke ich darüber nach, wie ich sie blockieren kann. Könnte dies über Iptables erfolgen? Ich benutze Nginx als Webserver.



2
Sollte ich Bots von meiner Website blockieren und warum?
Meine Logbücher sind voll von Bot-Besuchern, oft aus Osteuropa und China. Die Bots werden als Ahrefs, Seznam, LSSRocketCrawler, Yandex, Sogou usw. identifiziert. Soll ich diese Bots von meiner Website aus blockieren und warum? Welche haben einen legitimen Zweck, um den Traffic auf meiner Site zu erhöhen? Viele von ihnen sind …

1
Warum crawlt baidu meine Seite wie verrückt?
Wenn ich mein Apache-Protokoll überprüfe, kann ich feststellen, dass baidu meine Website in den letzten 2 Wochen 10 Mal am Tag gecrawlt hat. Es ist nicht so, dass es mich interessiert, aber ich bin wirklich neugierig, warum er das tut. Es ist eine sehr kleine Single-Page-Website mit wenig eingehenden Links. …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.