Ein Computerprogramm, das für verschiedene Zwecke auf Webseiten zugreift (um Inhalte zu entfernen, Suchmaschinen mit Informationen über Ihre Website zu versorgen usw.)
Ich habe gesehen, dass Google einen netten Vorschlag / Standard für das Crawlen von Ajax-Anwendungen über # hat! (Hash Bang). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Meine Fragen sind: Verwenden sie diesen "Vorschlag" derzeit bereits in der realen Welt? Verwenden oder planen andere Suchmaschinen - speziell Bing - diese ebenfalls?
Ich habe festgestellt, dass die Google Webmaster-Tools viele blockierte Ressourcen auf meiner Website melden. Im Moment sind alle "blockierten Ressourcen" .css, .js und Bilder (.jpg, .png), die ich von Cloudfront CDN aus bediene. Ich habe viel Zeit damit verbracht, zu testen und herauszufinden, warum Google diese Dateien nicht crawlt und …
Nachdem ich eine Reihe von Bots geschrieben und die enormen Mengen an zufälligen Bots gesehen habe, die zufällig eine Site crawlen, frage ich mich als Webmaster, welche Bots es wirklich wert sind, auf eine Site gelassen zu werden. Mein erster Gedanke ist, dass das Zulassen von Bots auf der Website …
Das ist meine robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Die Google Webmaster-Tools sagen mir jedoch, dass Roboter den Zugriff auf die Sitemap blockieren: Beim Versuch, auf Ihre Sitemap zuzugreifen, ist ein Fehler aufgetreten. Stellen Sie sicher, dass Ihre Sitemap unseren Richtlinien entspricht und an dem von …
Ich habe eine Website, die derzeit ungefähr 7.000 - 10.000 Seitenaufrufe pro Tag erzielt. Als ich am 01.07.12 gegen 1 Uhr morgens anfing, bemerkte ich, dass die Klickrate dramatisch anstieg. Diese Klicks werden gutgeschrieben und bald darauf wieder gutgeschrieben. Es handelte sich also offensichtlich um betrügerische Klicks. Am nächsten Tag …
Meine Website zählt die Besucheraufrufe auf bestimmten Seiten. Ich habe festgestellt, dass Google und andere Bots wie verrückt auf meine Website "klicken" und einige der Seiten unrealistische Aufrufe erhalten (im Vergleich zu denen, die von Menschen erstellt wurden). Ich bitte um bewährte Methoden, um diese Bots aus meiner Sicht auszuschließen. …
Ich habe eine mehrsprachige und mehrsprachige Site. Es läuft durch eine einzigartige CMS-Installation (Drupal), so dass ich ein einziges Stammverzeichnis habe. Wenn ich also eine statische robots.txt habe, kann ich dort meines Wissens nur die Dateien für eine einzelne Domain anzeigen. Könnte ich eine Zeile in .htaccess setzen Redirect 301 …
Wir haben eine Store Locater-Seite auf der Website unseres Kunden. Der Endbenutzer gibt seine Postleitzahl und einen Suchradius ein und wir zeigen die Ergebnisse auf einer Google Map an. Vor kurzem hatten wir festgestellt, dass die Website das kostenlose Kartensuchlimit (ca. 25.000 pro 24 Stunden) erreicht hat, ohne dass der …
Ich bin heute in meinen SEO-Nachrichten auf diesen Artikel gestoßen. Es scheint zu implizieren, dass Sie Noindex:zusätzlich zu den Standardanweisungen Disallow:in robots.txt Direktiven verwenden können . Disallow: /page-one.html Noindex: /page-two.html Es scheint, als würde dies verhindern, dass Suchmaschinen Seite eins crawlen und Seite zwei indizieren. Wird diese robots.txt- Direktive von …
Ich verwende die folgende robots.txt-Datei für eine Site: Ziel ist es, Googlebot und Bingbot den Zugriff auf die Site mit Ausnahme der Seite zu ermöglichen /bedven/bedrijf/*und alle anderen Bots daran zu hindern, die Site zu crawlen . User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: …
Können Benutzeragenten zusammen aufgelistet werden, gefolgt von ihren allgemeinen Regeln wie in einer robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/
Ich habe einen kleinen Webcrawler ausgeführt und musste mich entscheiden, welchen Benutzeragenten ich dafür verwenden soll. Listen von Crawler-Agenten sowie Wikipedia schlagen das folgende Format vor: examplebot/1.2 (+http://www.example.com/bot.html) Einige Bots lassen jedoch das Pluszeichen vor der URL weg. Und ich frage mich, was es überhaupt bedeutet, konnte aber keine Erklärung …
Ich hatte ein paar private Dateien in einem Verzeichnis in meinem Schulordner. Sie können sehen, dass die Dateien vorhanden sind, indem Sie zu myschool.edu/myusername/myfolder gehen. Wenn Sie jedoch versuchen, über myschool.edu/myusername/myfolder/myfile.html auf die Dateien selbst zuzugreifen, wird ein 403-Fehler zurückgegeben. Und doch hat Google es irgendwie geschafft, den Inhalt dieser …
Ich habe eine Website, die ich meistens nicht von Suchmaschinen indizieren möchte, aber ich möchte sie auf archive.org für immer behalten. Also robots.txtfängt mein damit an: User-agent: * Disallow: / Laut archive.org muss ich heute Folgendes in mein hinzufügen robots.txt, um ihre Bots zuzulassen: User-agent: ia_archiver Disallow: Aber ich hatte …
Jetzt hat Google das AJAX-Crawling-Schema abgelehnt . Sie sagen, dass sie sich nicht die Mühe machen sollen, es auf neuen Websites zu implementieren, da es nicht mehr benötigt wird, da Googlebot jetzt kein Problem damit hat, dynamische Inhalte anzusehen. Sollten wir dieser Aussage sofort vertrauen oder uns besser für eine …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.