Was ist eine gute robots.txt?


7

Wofür ist das "beste" Setup robots.txt?
Ich verwende die folgende Permalink-Struktur /%category%/%postname%/.

Mein robots.txtsieht momentan so aus (kopiert von irgendwo vor langer Zeit):

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */comments
  1. Ich möchte, dass meine Kommentare indiziert werden. Also kann ich das entfernen
  2. Möchte ich Indizierungskategorien aufgrund meiner Permalink-Struktur nicht zulassen?
  3. Ein Artikel kann mehrere Tags haben und sich in mehreren Kategorien befinden. Dies kann bei Suchanbietern wie Google zu Duplikaten führen. Wie soll ich das umgehen?

Würden Sie hier noch etwas ändern?


Möglicherweise erhalten Sie im Pro Webmasters Stack Exchange bessere Antworten und kehren dann hierher zurück, um zu erfahren, wie Sie diese Tipps mit WordPress implementieren.
Jan Fabry

Das war das erste was ich getan habe. Aber da dies WP-spezifisch ist, habe ich mein Q gelöscht und es stattdessen hier gepostet - da dies mehr mit wp zu tun hat ....
Steven

PS. Beim Implementieren wird nur das robots.txtin mein WP-Verzeichnis gestellt.
Steven

Antworten:


3

FWIW, Trackback-URLs geben Weiterleitungen aus und haben keinen Inhalt, sodass sie nicht indiziert werden.

Und auf die Gefahr hin, die Frage nicht zu beantworten, RE Ihre Punkte 2 und 3:

http://googlewebmastercentral.blogspot.com/2008/09/demystifying-duplicate-content-penalty.html

Anders ausgedrückt, ich denke, Sie verschwenden Ihre Zeit damit, sich Gedanken über Dup-Inhalte zu machen, und Ihre robots.txt sollte beschränkt sein auf:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-content/cache

Dank dafür. Ich werde jedoch keine Autoren indexieren. Autoren kommen und gehen. Wenn ich einen lösche, bekomme ich ein paar 404 in Google. Ich weiß, weil ich jetzt mehrere davon habe :)
Steven

Es wäre besser, eine Autorenrolle für den Abonnenten festzulegen, anstatt den gesamten Inhalt zu löschen und für SEO-Zwecke durch Schleifen zu springen
Tom J Nowell

Ich denke, diese Antwort ist nicht mehr die beste. Ich habe eine Antwort hinzugefügt.
Cybmeta

4

Viel Zeit, seit diese Frage und Antwort veröffentlicht wurden. Seitdem haben sich die Dinge sehr verändert. Die typische Empfehlung über disallow Crawlern Zugang wp-content/themes, wp-content/plugins, wp-content/cache, wp-includes, und anderes Verzeichnis , das auf der Website benötigen CSS oder JS - Dateien enthält, nicht mehr gültig ist .

Lassen Sie uns zum Beispiel über Google sprechen. Googlebot hat Websites ohne CSS und ohne js gerendert, aber eigentlich nicht. Tatsächlich erkennt Googlebot das gesamte Dokument und überprüft Dinge wie Reaktionsfähigkeit, Anzahl, Speicherort und Größe der Skripte usw. Google mag es also nicht, wenn Sie Googlebot den Zugriff auf CSS- und JS-Dateien untersagen. Das bedeutet , dass Sie sollten nicht verbieten wp-content/themes, wp-content/plugins, wp-content/cacheund wp-includeswegen all diese Ordner können CSS und JS - Dateien dienen.

Aus meiner Sicht ist die beste robots.txt-Datei die von WordPress standardmäßig erstellte ( die folgende robots.txt ist die Standardeinstellung seit WP 4.0 ):

User-agent: *
Disallow: /wp-admin/

Wenn Sie einen cgi-bin-Ordner haben, ist es möglicherweise eine gute Idee, den cgi-bin-Ordner nicht zuzulassen:

User-agent: *
Disallow: /wp-admin/
Disallow: /cgi-bin/

Wenn Sie eine Sitemap verwenden, empfiehlt es sich, eine Sitemap-Referenz in robots.txt aufzunehmen (Sie müssen die Sitemap noch manuell an Google und die Bing Webmaster-Tools senden, die Referenz kann jedoch für andere Crawler nützlich sein):

User-agent: *
Disallow: /wp-admin/
Disallow: /cgi-bin/

Sitemap: http://example.com/sitemap.xml

Das ist im Allgemeinen. Bestimmte Websites müssen möglicherweise andere Ordner und Dateien nicht zulassen, die in jedem speziellen Fall untersucht werden sollten. Beispielsweise benötigen oder möchten Sie möglicherweise einen bestimmten Plugin-Ordner nicht zulassen:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/plugins/plugin-folder/

Verwenden Sie zum Ändern der robots.txt den robots_txtFilter (mit einer echten robots.txt-Datei kann WordPress robots.txt nicht mehr verarbeiten). Zum Beispiel:

add_filter( 'robots_txt', function( $output ) {

    $output .= "Disallow: /cgi-bin/\n";
    $output .= "Disallow: /wp-content/plugins/plugin-folder-i-want-to-block/\n";
    $output .= "\nSitemap: " . site_url( 'sitemap.xml' ) . "\n";

    return $output;

});

1
Ich mag die Tatsache, dass Sie Google und erwähnt haben wp-content/themes. Dies war ein Problem für unsere Websites, da unsere Websites den " Mobile-Friendly Test " von Google nicht mehr bestanden haben und wir aus diesem Grund von einer wichtigen mobilen App für Nachrichtenaggregatoren ausgeschlossen wurden, obwohl unsere Websites vollständig reagierten.
Jimihenrik

2

Haben Sie sich das WordPress SEO Plugin von Yoast angesehen ? Es behandelt definitiv Probleme mit robots.txt.


2
Ich möchte nicht mehr Plugins verwenden, als ich wirklich muss.
Steven

1
Okay, hier ist die erste Frage: Warum nicht? Zweite Frage: Warum nicht WP SEO als "Muss" -Plugin betrachten?
ZaMoose

6
Je mehr Plugins ich benutze, desto mehr verliere ich die Kontrolle darüber, welcher Code auf meiner Site ist. Daher bevorzuge ich die Verwendung meines eigenen Codes. Außerdem bin ich ziemlich zuversichtlich in meine eigenen SEO-Fähigkeiten.
Steven

2

Mit ein bisschen Hilfe sind dies jetzt Minen (anscheinend nicht viel anders als alle anderen)

User-agent: *
    Allow: /

Disallow: /wp-content/
    Disallow: /wp-admin/
    Disallow: /cat/
    Disallow: /key/
    Disallow: /*?
    Disallow: /*.js$
    Disallow: /*.inc$
    Disallow: /*.css$
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes

User-agent: Mediapartners-Google
    Allow: /

User-agent: Adsbot-Google
    Allow: /

User-agent: Googlebot-Image
    Allow: /

User-agent: Googlebot-Mobile
    Allow: /

#User-agent: ia_archiver-web.archive.org
    #Disallow: /

Sitemap: YOURSITENAME.HERE

1

Sie sollten dem aktuellen Ansatz von Joost de Valk folgen, bei dem nur sehr wenig blockiert ist robots.txt, aber auch verstehen, dass jede Site eine einzigartig geeignete Richtlinie hat, die im Laufe der Zeit überprüft und geändert werden muss.

Viele der hier zuvor gegebenen Antworten sind veraltet und führen zu SEO-Selbstsabotage, da Google jetzt nach "mobiler Freundlichkeit" sucht. Heute versuchen Googlebots, alles zu laden, was ein normaler Browser tut, einschließlich Schriftarten, Bilder, JavaScript und CSS-Assets aus / wp-Inhalten, / Themen, / Plugins usw. (Morten Rand-Hendriksen hat kürzlich darüber gebloggt .)

Sie können den "mobilfreundlichen" Website-Checker von Google verwenden, um herauszufinden, ob Ihre robots.txtDatei Ihre Website sabotiert. Wenn Sie die Google Webmaster-Tools verwenden, sollten Sie Benachrichtigungen und E-Mail-Benachrichtigungen erhalten, wenn ein großes Problem vorliegt.

Sofern Sie nicht darauf achten, dass keine wichtigen Präsentations- oder interaktiven Elemente aus nicht zugelassenen Ordnern geladen werden, ist dies wahrscheinlich das absolute Minimum, mit dem jede WordPress-Installation sicher ist:

User-agent: *
Disallow: /wp-admin

Und vergessen Sie nicht, eine Sitemap hinzuzufügen:

Sitemap: http://yoursite.com/sitemap.xml

Leider schafft diese offenere Politik heute das Potenzial für andere Probleme, die früher dazu geführt haben, dass die Leute restriktiver waren robots.txt, wie [Plugin- und Theme-Entwickler, einschließlich indexierbarer Seiten mit Links zurück zu ihren eigenen Websites]. 4 Es gibt nichts zu tun, es sei denn, Sie können den gesamten Code von Drittanbietern mit einem feinen Zahnkamm durchforsten und Dinge verschieben oder entfernen, die nicht indiziert werden sollen.


0

Zu Ihrer Information, beginnen Sie Ihren Permalink immer mit einer Nummer. Aus Erfahrung beschleunigt es die Seite, weil WordPress schnell zwischen einer Seite und einem Beitrag unterscheiden kann (ich habe das auch woanders gelesen und es dann ausprobiert ... und es ist wahr). also http:example.com/%month%/%post%... wird gut

Ich werde nur kopieren, was ich habe. Es wurde viel geforscht. Es ist wahrscheinlich übertrieben! Es hilft Google dabei, die Hauptschlüsselwörter Ihrer Website zu erkennen, die im Google Webmaster-Tool angezeigt werden. Ich hoffe es hilft

User-agent: *
Allow: /
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /cgi-bin/
Sitemap: Url to sitemap1
Sitemap: Url to sitemap2

User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.cgi$
Disallow: /*.wmv$
Disallow: /*.ico$
Disallow: /*.opml$
Disallow: /*.shtml$
Disallow: /*.jpg$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /wp-*
Allow: /wp-content/uploads/ 

# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*

User-agent:  *
Disallow: /about/
Disallow: /contact-us/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-

# disallow archiving site
User-agent: ia_archiver
Disallow: /

# disable duggmirror
User-agent: duggmirror
Disallow: /

User-agent: Googlebot
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.