Robots.txt verhindert nur, dass Bots die nicht zugelassenen URLs crawlen und nicht indizieren. Wenn die nicht zugelassenen URLs extern oder intern von einer Seite aus verlinkt sind, die nicht nicht zulässig ist, werden sie im Index mit dem von Ihnen zitierten Snippet-Text angezeigt.
Wenn Sie sie vollständig aus dem Index ausschließen möchten, ist die beste Option wahrscheinlich das kanonische Linkelement:
<head>
<link rel="canonical" href="http://www.example.com">
</head>
In dem von Ihnen angegebenen Beispiel https://example.com/blog/blog/2013/02?limit=200
würde die Seite Folgendes enthalten:
<head>
<link rel="canonical" href="https://example.com/blog/blog/2013/02">
</head>
Dies setzt voraus, dass HTTPS Ihr bevorzugtes Protokoll ist. Wenn dies nicht der Fall ist, sollten Sie dies über die 301-Umleitung normalisieren.
Der Vorteil dieses Ansatzes besteht darin, dass Sie die Webmaster-Tools für Suchmaschinen nicht konfigurieren müssen.
Verwenden von Webmaster-Tools
Eine Alternative ist die Verwendung von URL-Parameterfiltern in den Google- und Bing-Webmaster-Tools. In Google finden Sie es unter Crawl> URL-Parameterfilter .
In der Regel wird diese Seite bereits mit Parametern gefüllt, die der Crawler erkannt hat. Sie können diese jedoch auch manuell angeben.
Angenommen, Sie ?limit=200
steuern, wie viele Elemente auf einer Seite angezeigt werden, konfigurieren Sie sie in Google WMT wie folgt:
Wählen Sie "Ja: Seiteninhalt ändert, neu ordnet oder einschränkt"
Wählen Sie "Narrows"
Wählen Sie "Keine URLs"