Webmaster web-crawlers

4

Ich habe gesehen, dass Google einen netten Vorschlag / Standard für das Crawlen von Ajax-Anwendungen über # hat! (Hash Bang). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Meine Fragen sind: Verwenden sie diesen "Vorschlag" derzeit bereits in der realen Welt? Verwenden oder planen andere Suchmaschinen - speziell Bing - diese ebenfalls?

12 seo google ajax web-crawlers

4

Google crawlt keine CDN-Dateien

Ich habe festgestellt, dass die Google Webmaster-Tools viele blockierte Ressourcen auf meiner Website melden. Im Moment sind alle "blockierten Ressourcen" .css, .js und Bilder (.jpg, .png), die ich von Cloudfront CDN aus bediene. Ich habe viel Zeit damit verbracht, zu testen und herauszufinden, warum Google diese Dateien nicht crawlt und …

11 google-search-console web-crawlers googlebot cdn amazon-cloudfront

2

Welche Bots sind es wirklich wert, auf eine Site gelassen zu werden?

Nachdem ich eine Reihe von Bots geschrieben und die enormen Mengen an zufälligen Bots gesehen habe, die zufällig eine Site crawlen, frage ich mich als Webmaster, welche Bots es wirklich wert sind, auf eine Site gelassen zu werden. Mein erster Gedanke ist, dass das Zulassen von Bots auf der Website …

11 seo web-crawlers robots.txt googlebot bingbot

2

Die Google Webmaster-Tools teilen mir mit, dass Roboter den Zugriff auf die Sitemap blockieren

Das ist meine robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Die Google Webmaster-Tools sagen mir jedoch, dass Roboter den Zugriff auf die Sitemap blockieren: Beim Versuch, auf Ihre Sitemap zuzugreifen, ist ein Fehler aufgetreten. Stellen Sie sicher, dass Ihre Sitemap unseren Richtlinien entspricht und an dem von …

11 google-search-console robots.txt web-crawlers

4

Adsense Click Bot ist ein Klick auf meine Website

Ich habe eine Website, die derzeit ungefähr 7.000 - 10.000 Seitenaufrufe pro Tag erzielt. Als ich am 01.07.12 gegen 1 Uhr morgens anfing, bemerkte ich, dass die Klickrate dramatisch anstieg. Diese Klicks werden gutgeschrieben und bald darauf wieder gutgeschrieben. Es handelte sich also offensichtlich um betrügerische Klicks. Am nächsten Tag …

11 google-adsense advertising web-crawlers botattack

6

Was ist der beste Weg, um Bots von der Anzahl der Aufrufe auszuschließen?

Meine Website zählt die Besucheraufrufe auf bestimmten Seiten. Ich habe festgestellt, dass Google und andere Bots wie verrückt auf meine Website "klicken" und einige der Seiten unrealistische Aufrufe erhalten (im Vergleich zu denen, die von Menschen erstellt wurden). Ich bitte um bewährte Methoden, um diese Bots aus meiner Sicht auszuschließen. …

11 php mysql web-crawlers best-practices

4

Können die Dateien robots.txt und sitemap.xml durch eine .htaccess-Umleitung dynamisch sein?

Ich habe eine mehrsprachige und mehrsprachige Site. Es läuft durch eine einzigartige CMS-Installation (Drupal), so dass ich ein einziges Stammverzeichnis habe. Wenn ich also eine statische robots.txt habe, kann ich dort meines Wissens nur die Dateien für eine einzelne Domain anzeigen. Könnte ich eine Zeile in .htaccess setzen Redirect 301 …

11 htaccess redirects sitemap web-crawlers

1

Googlebot sendet Tausende von Anfragen an unseren Kartenfinder und verwendet das API-Kontingent

Wir haben eine Store Locater-Seite auf der Website unseres Kunden. Der Endbenutzer gibt seine Postleitzahl und einen Suchradius ein und wir zeigen die Ergebnisse auf einer Google Map an. Vor kurzem hatten wir festgestellt, dass die Website das kostenlose Kartensuchlimit (ca. 25.000 pro 24 Stunden) erreicht hat, ohne dass der …

10 web-crawlers google-maps

1

Wie funktioniert "Noindex:" in robots.txt?

Ich bin heute in meinen SEO-Nachrichten auf diesen Artikel gestoßen. Es scheint zu implizieren, dass Sie Noindex:zusätzlich zu den Standardanweisungen Disallow:in robots.txt Direktiven verwenden können . Disallow: /page-one.html Noindex: /page-two.html Es scheint, als würde dies verhindern, dass Suchmaschinen Seite eins crawlen und Seite zwei indizieren. Wird diese robots.txt- Direktive von …

10 web-crawlers robots.txt googlebot noindex

2

Erlauben Sie nur Google- und Bing-Bots, eine Website zu crawlen

Ich verwende die folgende robots.txt-Datei für eine Site: Ziel ist es, Googlebot und Bingbot den Zugriff auf die Site mit Ausnahme der Seite zu ermöglichen /bedven/bedrijf/*und alle anderen Bots daran zu hindern, die Site zu crawlen . User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: …

10 web-crawlers robots.txt

1

Kombinieren Sie Benutzeragenten in robots.txt

Können Benutzeragenten zusammen aufgelistet werden, gefolgt von ihren allgemeinen Regeln wie in einer robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

10 web-crawlers robots.txt user-agent

2

Pluszeichen vor URLs in Benutzeragenten

Ich habe einen kleinen Webcrawler ausgeführt und musste mich entscheiden, welchen Benutzeragenten ich dafür verwenden soll. Listen von Crawler-Agenten sowie Wikipedia schlagen das folgende Format vor: examplebot/1.2 (+http://www.example.com/bot.html) Einige Bots lassen jedoch das Pluszeichen vor der URL weg. Und ich frage mich, was es überhaupt bedeutet, konnte aber keine Erklärung …

10 web-crawlers http user-agent

1

Wie hat Google es geschafft, meine 403 Seiten zu crawlen?

Ich hatte ein paar private Dateien in einem Verzeichnis in meinem Schulordner. Sie können sehen, dass die Dateien vorhanden sind, indem Sie zu myschool.edu/myusername/myfolder gehen. Wenn Sie jedoch versuchen, über myschool.edu/myusername/myfolder/myfile.html auf die Dateien selbst zuzugreifen, wird ein 403-Fehler zurückgegeben. Und doch hat Google es irgendwie geschafft, den Inhalt dieser …

10 web-crawlers security googlebot

6

Wie kann ich den archive.org-Bot richtig (dis) zulassen? Haben sich die Dinge geändert, wenn ja, wann?

Ich habe eine Website, die ich meistens nicht von Suchmaschinen indizieren möchte, aber ich möchte sie auf archive.org für immer behalten. Also robots.txtfängt mein damit an: User-agent: * Disallow: / Laut archive.org muss ich heute Folgendes in mein hinzufügen robots.txt, um ihre Bots zuzulassen: User-agent: ia_archiver Disallow: Aber ich hatte …

10 web-crawlers robots.txt internet-archive

2

Sollten wir das AJAX-Crawling-Schema fallen lassen?

Jetzt hat Google das AJAX-Crawling-Schema abgelehnt . Sie sagen, dass sie sich nicht die Mühe machen sollen, es auf neuen Websites zu implementieren, da es nicht mehr benötigt wird, da Googlebot jetzt kein Problem damit hat, dynamische Inhalte anzusehen. Sollten wir dieser Aussage sofort vertrauen oder uns besser für eine …

9 seo web-crawlers googlebot ajax

Als «web-crawlers» getaggte Fragen