Wie konfiguriere ich robots.txt, um alles zuzulassen?

116

Meine robots.txtGoogle Webmaster-Tools zeigen die folgenden Werte an:

User-agent: *
Allow: /

Was heißt das? Ich habe nicht genug Wissen darüber, also suche deine Hilfe. Ich möchte allen Robotern erlauben, meine Website zu crawlen. Ist dies die richtige Konfiguration?

robots.txt

— Raajpoot
quelle

Zulassen wird nicht von allen Webcrawlern verstanden. Verwenden Sie stattdessen disavow: (dh ohne URL nach dem :). Es ist sicherer (siehe: youtu.be/G29Zt-UH_Ko )

— Jérôme Verstrynge

153

Diese Datei ermöglicht allen Crawlern den Zugriff

User-agent: *
Allow: /

Dies ermöglicht grundsätzlich allen Benutzeragenten (das *) den Zugriff auf alle Teile der Site (das /).

— Jim
quelle

11

Richtig, es sei denn, Sie müssen den zulässigen Teil negieren. Es gibt kein "Zulassen", also machen Sie Folgendes

— vsdev

Es gibt einen Erlaubnisteil. Überprüfen Sie die offiziellen Google Docs- Entwickler.

— Google.com/search/reference/robots_txt#allow

60

Wenn Sie jedem Bot erlauben möchten, alles zu crawlen, können Sie dies am besten in Ihrer robots.txt angeben:

User-agent: *
Disallow:

Beachten Sie, dass das DisallowFeld einen leeren Wert hat, was gemäß der Spezifikation bedeutet :

Jeder leere Wert gibt an, dass alle URLs abgerufen werden können.

Ihr Weg (mit Allow: /statt Disallow:) funktioniert auch, ist aber Allownicht Teil der ursprünglichen robots.txt-Spezifikation , sodass er nicht von allen Bots unterstützt wird (viele beliebte unterstützen ihn jedoch, wie der Googlebot ). Das heißt, nicht erkannte Felder müssen ignoriert werden, und für Bots, die nicht erkennen Allow, wäre das Ergebnis in diesem Fall ohnehin das gleiche: Wenn das Crawlen (mit Disallow) nichts verboten ist, darf alles gecrawlt werden.
Formal (gemäß der ursprünglichen Spezifikation) handelt es sich jedoch um einen ungültigen Datensatz, da mindestens ein DisallowFeld erforderlich ist:

In einem Datensatz muss mindestens ein Feld "Nicht zulassen" vorhanden sein.

— unor
quelle

17

Ich verstehe, dass dies eine ziemlich alte Frage ist und einige ziemlich gute Antworten hat. Aber hier sind der Vollständigkeit halber meine zwei Cent.

Gemäß der offiziellen Dokumentation gibt es vier Möglichkeiten, wie Sie Robotern den vollständigen Zugriff auf Ihre Site ermöglichen können.

Reinigen:

Geben Sie einen globalen Matcher mit einem nicht zulässigen Segment an, wie von @unor angegeben. Du siehst also so /robots.txtaus.

User-agent: *
Disallow:

Der Hack:

Erstellen Sie eine /robots.txtDatei ohne Inhalt. Welches wird standardmäßig alle für alle Arten von zulassen Bots.

Es ist mir egal, wie:

Erstellen Sie keine /robots.txtinsgesamt. Welches sollte genau die gleichen Ergebnisse wie die beiden oben ergeben.

Das hässliche:

In der Roboterdokumentation für Meta-Tags können Sie das folgende Meta-Tag auf allen Ihren Seiten Ihrer Site verwenden, um Botsmitzuteilen, dass diese Seiten nicht indiziert werden sollen.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Damit dies auf Ihre gesamte Site angewendet werden kann, müssen Sie dieses Meta-Tag für alle Ihre Seiten hinzufügen. Und dieses Tag sollte unbedingt unter Ihrem HEADTag der Seite platziert werden. Mehr zu diesem Meta-Tag hier .

— Raja Anbazhagan
quelle

Keine robots.txt und Wordpress ist jedoch eine schlechte Kombination, da WordPress eine virtuelle robots.txt generiert. Es sei denn, Sie sind mit dem von WordPress generierten zufrieden.

— Jesper

8

Dies bedeutet, dass Sie jedem ( *) Benutzeragenten / Crawler den Zugriff auf das Stammverzeichnis ( /) Ihrer Site erlauben . Du bist inordnung.

— Jordi
quelle

5

Laut robotstxt.org/robotstxt.html gibt es kein "Zulassen" -Feld, daher würde ich das vorsichtig verwenden. Wikipedia erwähnt „Einige wichtige Crawler unterstützen eine Richtlinie zulassen , die eine folgende Disallow Richtlinie entgegenwirken kann.“: En.wikipedia.org/wiki/Robots_exclusion_standard#Allow_directive

— Mackaaij