Als «robots.txt» getaggte Fragen

Robots.txt ist eine Textdatei, die von Website-Eigentümern verwendet wird, um Web-Robotern Anweisungen zu ihrer Website zu geben. Grundsätzlich sagt es Robotern, welche Teile der Site offen und welche Teile geschlossen sind. Dies wird als Robots Exclusion Protocol bezeichnet.


3
Befolgen Google Preview Robots.txt?
Weil es sicher so aussieht. Für meine Websites ist das Bilderverzeichnis nicht zulässig, und in den Voransichten fehlen alle Bilder, wodurch die Website wackelig aussieht. Ist dies der Fall und gibt es eine Möglichkeit, nur dem Vorschau-Bot den Zugriff auf Bilder mit robots.txt zu ermöglichen? BEARBEITEN: Es sieht so aus, …

3
Kann ein Sitemap-Index andere Sitemap-Indizes enthalten?
Ich habe eine zweisprachige Website mit einem Sitemap-Index für jede Sprache, der auf mehrere verschiedene Sitemaps verweist (eine für Videos, eine für statische Inhalte und eine für Artikel). Ich möchte eine weitere Sitemap einführen, die die Sitemap-Indizes verknüpft, damit ich diese Sitemap in der robots.txt im Stammverzeichnis verknüpfen kann und …

1
Wie funktioniert "Noindex:" in robots.txt?
Ich bin heute in meinen SEO-Nachrichten auf diesen Artikel gestoßen. Es scheint zu implizieren, dass Sie Noindex:zusätzlich zu den Standardanweisungen Disallow:in robots.txt Direktiven verwenden können . Disallow: /page-one.html Noindex: /page-two.html Es scheint, als würde dies verhindern, dass Suchmaschinen Seite eins crawlen und Seite zwei indizieren. Wird diese robots.txt- Direktive von …

2
Erlauben Sie nur Google- und Bing-Bots, eine Website zu crawlen
Ich verwende die folgende robots.txt-Datei für eine Site: Ziel ist es, Googlebot und Bingbot den Zugriff auf die Site mit Ausnahme der Seite zu ermöglichen /bedven/bedrijf/*und alle anderen Bots daran zu hindern, die Site zu crawlen . User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: …

1
Kombinieren Sie Benutzeragenten in robots.txt
Können Benutzeragenten zusammen aufgelistet werden, gefolgt von ihren allgemeinen Regeln wie in einer robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

3
Wie kann ich robots.txt verwenden, um nur Subdomains zu verbieten?
Mein Code - Basis wird zwischen mehreren Umgebungen (live, Inszenierung, dev) und Sub-Domains geteilt ( staging.example, dev.exampleusw.) und nur zwei sollten gecrawlt werden dürfen (dh. www.exampleUnd example). Normalerweise würde ich ändern /robots.txtund hinzufügen Disallow: /, aber aufgrund der gemeinsam genutzten Codebasis kann ich nicht ändern, /robots.txtohne alle (Unter-) Domänen zu …

6
Wie kann ich den archive.org-Bot richtig (dis) zulassen? Haben sich die Dinge geändert, wenn ja, wann?
Ich habe eine Website, die ich meistens nicht von Suchmaschinen indizieren möchte, aber ich möchte sie auf archive.org für immer behalten. Also robots.txtfängt mein damit an: User-agent: * Disallow: / Laut archive.org muss ich heute Folgendes in mein hinzufügen robots.txt, um ihre Bots zuzulassen: User-agent: ia_archiver Disallow: Aber ich hatte …

10
Müssen verhindern, dass Bots meinen Webserver töten
Ich habe EXTREME Bot-Probleme auf einigen meiner Websites in meinem Hosting-Konto. Die Bots nutzen über 98% meiner CPU-Ressourcen und 99% meiner Bandbreite für mein gesamtes Hosting-Konto. Diese Bots generieren mehr als 1 GB Datenverkehr pro Stunde für meine Websites. Der tatsächliche menschliche Datenverkehr für alle diese Websites beträgt weniger als …

1
Sollte ich Wordpress-Archivseiten von Suchmaschinen blockieren?
Ich benutze WordPress und /sample-post/URLs für meine Beiträge und /yyyy/mm/für die Archive. Google hat die Website vollständig indiziert. Da in den Archiven derzeit vollständige Beiträge angezeigt werden, sollte Google die Archivseiten nicht indizieren, da sie die vollständigen Beiträge enthalten und es sich um doppelten Inhalt handelt. So enthält meine robots.txt: …


3
Wenn Sie eine Site über eine 301-Umleitung verschieben, sollten Sie eine robots.txt einrichten, die es Robotern nicht erlaubt, die alte Adresse zu crawlen?
Eine Site, an der ich arbeite, hat eine Subdomain über eine 301-Umleitung in eine andere Subdomain verschoben. Beim Überprüfen von robots.txt der alten Subdomain wird jedoch eine robots.txt verwendet, die das Crawlen von Suchmaschinen-Webcrawlern nicht zulässt. Ist das der richtige Schritt? Ich glaube nein, weil die Crawler die alte Site …

5
Sollten wir unsere Joomla robots.txt nach der Ankündigung von Google zum Crawlen von CSS und JavaScript ändern?
Ich bin auf eine Ankündigung von Google gestoßen : http://googlewebmastercentral.blogspot.in/2014/10/updating-our-technical-webmaster.html Es sagt aus: Für ein optimales Rendern und Indizieren legen wir in unserer neuen Richtlinie fest, dass Sie Googlebot Zugriff auf die von Ihren Seiten verwendeten JavaScript-, CSS- und Bilddateien gewähren sollten. Dies bietet Ihnen ein optimales Rendern und Indizieren …


2
Wie gehe ich in robots.txt mit Zulassen und Nicht zulassen um?
Ich verwende einen ziemlich großen Webcrawler. Wir sind sehr bemüht, den Crawler innerhalb der akzeptierten Community-Standards zu betreiben, und dazu gehört auch die Einhaltung von robots.txt. Wir bekommen nur sehr wenige Beschwerden über den Crawler, aber wenn wir das tun, geht es hauptsächlich um unseren Umgang mit robots.txt. Meistens hat …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.