Wie verbiete ich in Robots.txt alle Seiten außer der Indexseite?


7

Ich möchte, dass Google meine Indexseite indiziert, aber keine anderen Seiten indiziert.

User-agent: *
Disallow: /

Bisher habe ich das. Wenn ich dies tue, indiziert Google meine Indexseite jedoch nicht. Wenn ich meinen Namen in Google suche, wird lediglich "www.mydomain.com" als erstes Ergebnis ohne Beschreibung angezeigt.

Stattdessen möchte ich, dass Google meine Hauptindexseite auch mit dem Meta-Beschreibungs-Tag indiziert.

Antworten:


8

Insbesondere für Google reichen die folgenden Regeln aus:

User-Agent: *
Allow: /$
Disallow: /

Weitere Informationen finden Sie in der Google-Dokumentation zur unterstützten robots.txt-Syntax . Beachten Sie jedoch, dass die mittlere Zeile aus zwei Gründen nicht dem Standard entspricht: Erstens handelt es sich um eine AllowDirektive (der grundlegende robots.txt-Standard unterstützt nur Disallow), und zweitens wird der nicht standardmäßige Anker für das Ende der URL verwendet $. Einige andere große Suchmaschinen, einschließlich Bing , unterstützen jedoch mehr oder weniger dieselbe Syntax.


3

Google und andere Suchmaschinen unterstützen die Allow:Aussage jetzt zusätzlich zu Disallow:... obwohl sie sich auf verschiedenen Suchmaschinenspinnen möglicherweise unterschiedlich verhalten und möglicherweise nicht von anderen Arten von Website-Scrapern unterstützt oder durchgesetzt werden.

Dokumentation hier


0

Warum sollten Sie Google Ihre Seiten verbieten wollen?

Wie auch immer, Sie könnten dies tun:

Disallow: /
Allow: /index.html

1
Das passt nicht zu der üblichen Wurzel, die '/' ist
Bryce

0

Ich benutze so:

User-agent: Yandex
Allow: /index.html
Disallow: /

User-agent: Googlebot
Allow: /index.html
Disallow: /
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.