Wie können Sie mit robots.txt das Stammverzeichnis einer Site (http://www.example.com/) nicht zulassen, aber ein Unterverzeichnis (http://www.example.com/lessons/) zulassen?
Wie können Sie mit robots.txt das Stammverzeichnis einer Site (http://www.example.com/) nicht zulassen, aber ein Unterverzeichnis (http://www.example.com/lessons/) zulassen?
Antworten:
User-agent: *
Disallow: /
Allow: /lessons/
Allow: /other-dir/
Dies verbietet zwar die gesamte Website, lässt jedoch explizit bestimmte Verzeichnisse zu.
Sie müssen zuerst die Zulassungszeilen auflisten, wenn die Datei bei der ersten Übereinstimmung gelesen wird.
Um zu bewerten, ob der Zugriff auf eine URL zulässig ist, muss ein Roboter versuchen, die Pfade in den Zeilen "Zulassen" und "Nicht zulassen" mit der URL in der Reihenfolge abzugleichen, in der sie im Datensatz vorkommen. Die erste gefundene Übereinstimmung wird verwendet. Wenn keine Übereinstimmung gefunden wird, wird standardmäßig davon ausgegangen, dass die URL zulässig ist.
Referenz: http://www.robotstxt.org/norobots-rfc.txt
Google bietet ein Tool in Webmaster-Tools zum Testen Ihrer Datei. Ich empfehle immer, Ihre Datei zu testen. Siehe "Testen der robots.txt-Datei einer Site:" im unteren Bereich.
http://support.google.com/webmasters/bin/answer.py?hl=de&answer=156449