Webmaster robots.txt

5

Kann ich Google aufrufen, um meine robots.txt zu überprüfen?

Ich habe die Antworten in dieser Frage gelesen, aber meine Frage bleibt offen: Zwischenspeichert Google robots.txt? Ich habe in den Google Webmaster-Tools keine Möglichkeit gefunden, einen erneuten Download meiner robots.txt aufzurufen . Durch einen Fehler wurde meine robots.txt ersetzt durch: User-agent: * Disallow: / Und jetzt wurde mein gesamter Inhalt …

11 google google-search-console robots.txt

3

Befolgen Google Preview Robots.txt?

Weil es sicher so aussieht. Für meine Websites ist das Bilderverzeichnis nicht zulässig, und in den Voransichten fehlen alle Bilder, wodurch die Website wackelig aussieht. Ist dies der Fall und gibt es eine Möglichkeit, nur dem Vorschau-Bot den Zugriff auf Bilder mit robots.txt zu ermöglichen? BEARBEITEN: Es sieht so aus, …

11 google robots.txt

3

Kann ein Sitemap-Index andere Sitemap-Indizes enthalten?

Ich habe eine zweisprachige Website mit einem Sitemap-Index für jede Sprache, der auf mehrere verschiedene Sitemaps verweist (eine für Videos, eine für statische Inhalte und eine für Artikel). Ich möchte eine weitere Sitemap einführen, die die Sitemap-Indizes verknüpft, damit ich diese Sitemap in der robots.txt im Stammverzeichnis verknüpfen kann und …

11 google sitemap robots.txt

1

Wie funktioniert "Noindex:" in robots.txt?

Ich bin heute in meinen SEO-Nachrichten auf diesen Artikel gestoßen. Es scheint zu implizieren, dass Sie Noindex:zusätzlich zu den Standardanweisungen Disallow:in robots.txt Direktiven verwenden können . Disallow: /page-one.html Noindex: /page-two.html Es scheint, als würde dies verhindern, dass Suchmaschinen Seite eins crawlen und Seite zwei indizieren. Wird diese robots.txt- Direktive von …

10 web-crawlers robots.txt googlebot noindex

2

Erlauben Sie nur Google- und Bing-Bots, eine Website zu crawlen

Ich verwende die folgende robots.txt-Datei für eine Site: Ziel ist es, Googlebot und Bingbot den Zugriff auf die Site mit Ausnahme der Seite zu ermöglichen /bedven/bedrijf/*und alle anderen Bots daran zu hindern, die Site zu crawlen . User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: …

10 web-crawlers robots.txt

1

Kombinieren Sie Benutzeragenten in robots.txt

Können Benutzeragenten zusammen aufgelistet werden, gefolgt von ihren allgemeinen Regeln wie in einer robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

10 web-crawlers robots.txt user-agent

3

Wie kann ich robots.txt verwenden, um nur Subdomains zu verbieten?

Mein Code - Basis wird zwischen mehreren Umgebungen (live, Inszenierung, dev) und Sub-Domains geteilt ( staging.example, dev.exampleusw.) und nur zwei sollten gecrawlt werden dürfen (dh. www.exampleUnd example). Normalerweise würde ich ändern /robots.txtund hinzufügen Disallow: /, aber aufgrund der gemeinsam genutzten Codebasis kann ich nicht ändern, /robots.txtohne alle (Unter-) Domänen zu …

10 domains subdomain robots.txt multi-subdomains

6

Wie kann ich den archive.org-Bot richtig (dis) zulassen? Haben sich die Dinge geändert, wenn ja, wann?

Ich habe eine Website, die ich meistens nicht von Suchmaschinen indizieren möchte, aber ich möchte sie auf archive.org für immer behalten. Also robots.txtfängt mein damit an: User-agent: * Disallow: / Laut archive.org muss ich heute Folgendes in mein hinzufügen robots.txt, um ihre Bots zuzulassen: User-agent: ia_archiver Disallow: Aber ich hatte …

10 web-crawlers robots.txt internet-archive

10

Müssen verhindern, dass Bots meinen Webserver töten

Ich habe EXTREME Bot-Probleme auf einigen meiner Websites in meinem Hosting-Konto. Die Bots nutzen über 98% meiner CPU-Ressourcen und 99% meiner Bandbreite für mein gesamtes Hosting-Konto. Diese Bots generieren mehr als 1 GB Datenverkehr pro Stunde für meine Websites. Der tatsächliche menschliche Datenverkehr für alle diese Websites beträgt weniger als …

9 php htaccess robots.txt

1

Sollte ich Wordpress-Archivseiten von Suchmaschinen blockieren?

Ich benutze WordPress und /sample-post/URLs für meine Beiträge und /yyyy/mm/für die Archive. Google hat die Website vollständig indiziert. Da in den Archiven derzeit vollständige Beiträge angezeigt werden, sollte Google die Archivseiten nicht indizieren, da sie die vollständigen Beiträge enthalten und es sich um doppelten Inhalt handelt. So enthält meine robots.txt: …

9 seo wordpress robots.txt duplicate-content google-index

4

Von der Domain abgelehnte Roboter werden weiterhin in den Suchergebnissen aufgeführt

Daher haben wir auf allen unseren Websites, auf denen keine Suche durchgeführt wird, eine robots.txt-Datei angewendet (siehe So schließen Sie eine Website aus den Google-Suchergebnissen in Echtzeit aus? Oder eine andere ähnliche Frage). Wenn die Suchbegriffe jedoch spezifisch genug sind, kann die Domain selbst über die Ergebnisse gefunden werden. Ein …

9 seo robots.txt

3

Wenn Sie eine Site über eine 301-Umleitung verschieben, sollten Sie eine robots.txt einrichten, die es Robotern nicht erlaubt, die alte Adresse zu crawlen?

Eine Site, an der ich arbeite, hat eine Subdomain über eine 301-Umleitung in eine andere Subdomain verschoben. Beim Überprüfen von robots.txt der alten Subdomain wird jedoch eine robots.txt verwendet, die das Crawlen von Suchmaschinen-Webcrawlern nicht zulässt. Ist das der richtige Schritt? Ich glaube nein, weil die Crawler die alte Site …

8 seo redirects robots.txt

5

Sollten wir unsere Joomla robots.txt nach der Ankündigung von Google zum Crawlen von CSS und JavaScript ändern?

Ich bin auf eine Ankündigung von Google gestoßen : http://googlewebmastercentral.blogspot.in/2014/10/updating-our-technical-webmaster.html Es sagt aus: Für ein optimales Rendern und Indizieren legen wir in unserer neuen Richtlinie fest, dass Sie Googlebot Zugriff auf die von Ihren Seiten verwendeten JavaScript-, CSS- und Bilddateien gewähren sollten. Dies bietet Ihnen ein optimales Rendern und Indizieren …

8 seo google-search-console robots.txt joomla

4

Robots.txt vs Sitemap - Wer gewinnt in einem Konflikt?

Wenn ich das Verzeichnis / foo in robots.txt blockiere, meine XML-Sitemap jedoch URLs mit / foo enthält, werden die URLs in der Sitemap von Google und anderen Suchmaschinen erfasst? Mit anderen Worten, trumpft die Sitemap robots.txt? Ich denke schon, bin mir aber nicht sicher.

8 robots.txt xml-sitemap

2

Wie gehe ich in robots.txt mit Zulassen und Nicht zulassen um?

Ich verwende einen ziemlich großen Webcrawler. Wir sind sehr bemüht, den Crawler innerhalb der akzeptierten Community-Standards zu betreiben, und dazu gehört auch die Einhaltung von robots.txt. Wir bekommen nur sehr wenige Beschwerden über den Crawler, aber wenn wir das tun, geht es hauptsächlich um unseren Umgang mit robots.txt. Meistens hat …

8 robots.txt

Als «robots.txt» getaggte Fragen