Kann ich Google aufrufen, um meine robots.txt zu überprüfen?

11

Ich habe die Antworten in dieser Frage gelesen, aber meine Frage bleibt offen: Zwischenspeichert Google robots.txt?

Ich habe in den Google Webmaster-Tools keine Möglichkeit gefunden, einen erneuten Download meiner robots.txt aufzurufen .

Durch einen Fehler wurde meine robots.txt ersetzt durch:

User-agent: *
Disallow: /

Und jetzt wurde mein gesamter Inhalt aus den Google-Suchergebnissen entfernt.

Natürlich bin ich daran interessiert, dies so schnell wie möglich zu korrigieren. Ich habe die robots.txt bereits ersetzt , kann jedoch keine Möglichkeit finden, Google dazu zu bringen, die zwischengespeicherte Version zu aktualisieren.

Geben Sie hier die Bildbeschreibung ein

google google-search-console robots.txt

— Der Hochstapler
quelle

1

Es sollte im Allgemeinen nicht ausreichen , alle Ihre Seiten in robots.txt nicht zuzulassen , um sie vollständig aus den Google-Ergebnissen zu entfernen, solange andere Websites noch auf sie verlinken.

— Ilmari Karonen

Hmm, es ist schwierig. ZenCart-URLs scheinen den Webcrawler-Bot robots.txt zu verwirren, und bevor Sie es wissen, haben Sie URLs blockiert, die nicht blockiert werden sollen. Ich habe die Erfahrung gemacht, dass Sie ohne robots.txt besser dran sind, aber nur eine saubere Website haben. Ich habe aufgrund dieses Robots.txt-Fehlerblockierens gültiger URLs viele Web-Rangplätze verloren. Da ZenCart dynamische URLs verwendet, scheint es den Webcrawler robots.txt zu verwirren, was dazu führt, dass URLs blockiert werden, von denen Sie nicht erwarten, dass sie blockiert werden. Ich bin mir nicht sicher, ob es sich um das Deaktivieren einer Kategorie in ZenCart und das anschließende Verschieben von Produkten aus dieser Kategorie handelt. A

10

Sie können sie nicht dazu bringen, Ihre robots.txt erneut herunterzuladen, wenn Sie dies möchten. Google wird es erneut crawlen und die neuen Daten verwenden, wenn sie dies für Ihre Website für angemessen halten. Sie neigen dazu, es regelmäßig zu crawlen, sodass ich nicht erwarten würde, dass es lange dauert, bis Ihre aktualisierte Datei gefunden und Ihre Seiten neu gecrawlt und neu indiziert werden. Beachten Sie, dass es einige Zeit dauern kann, bis die neue robots.txt-Datei gefunden wurde, bevor Ihre Seiten erneut gecrawlt werden, und noch mehr Zeit, bis sie wieder in den Google-Suchergebnissen angezeigt werden.

— John Conde
quelle

1

Ihnen zufolge überprüfen sie jeden Tag oder so, aber sie suchen wahrscheinlich häufiger nach belebten Standorten. Siehe webmasters.stackexchange.com/a/32949/17430 .

— Studgeek

1

Ich hatte das gleiche Problem, als ich www.satyabrata.comam 16. Juni meine neue Website startete .

Ich hatte eine Disallow: /in meiner robots.txt , genau wie Oliver. In den Google Webmaster-Tools wurde auch eine Warnmeldung zu blockierten URLs angezeigt.

Das Problem wurde gestern, 18. Juni, gelöst. Ich habe Folgendes getan. Ich bin mir nicht sicher, welcher Schritt funktioniert hat.

Gesundheit -> Als Google abrufen : robots.txt und die Homepage. Dann an den Index senden.
Einstellungen -> Bevorzugte Domain: URL als anzeigen www.satyabrata.com
Optimierung -> Sitemaps: XML-Sitemap hinzugefügt.

Die Warnmeldung zu blockierten URLs ist jetzt verschwunden und eine neue robots.txt wird in den Google Webmaster-Tools heruntergeladen angezeigt.

Derzeit habe ich nur zwei Seiten in Google indiziert, die Homepage und robots.txt . Ich habe 10 Seiten auf der Website. Ich hoffe, der Rest wird bald indexiert.

— Satyabrata Das
quelle

0

Ich hatte ein Problem, bei dem die Bilder auf einen separaten CNAME-Server verschoben wurden und der Bilderordner nicht zugelassen wurde. Ich habe klargestellt, dass robots.txt in den Webmaster-Tools als Google-Tool gelesen wurde. Nachdem mir mitgeteilt wurde, dass robots.txt abgerufen und gelesen wurde, reichte ich es ein. Damit wurde ein dreimonatiges Embargo für das Scannen von Bildern aufgehoben, bei dem Google berichtete, dass die robots.txt-Datei gelesen wurde, das Spidering jedoch nicht geändert wurde, um den Regeln zu entsprechen, die geändert wurden, um den Bildordner zuzulassen. Innerhalb einer Woche wurden die Bilder erneut indiziert.

Könnte einen Versuch wert sein. Es ist bekannt, dass Google gelegentlich stecken bleibt und die Datei nicht erneut liest.

— Fiasko-Labore
quelle

Sie haben die Datei ungefähr 6 Stunden nach dem Posten erneut gelesen. Mittlerweile ist alles wieder normal.

— Der Hochstapler

Wütend! Dann wieder auf dem richtigen Weg!

— Fiasko Labs

Ich habe versucht, Webmaster-Tools zu bitten, robots.txt abzurufen. Es wurde beanstandet, dass es von robots.txt abgelehnt wurde :). Anscheinend funktioniert dieser Trick also nicht, wenn robots.txt einen vollständigen Block ausführt.

— Studgeek

Gleiches hier ... Anfrage für robots.txt von robots.txt abgelehnt! Hah!

— Kasapo

Welpe, wenn Sie Verleugnung auf die Wurzel setzen, dann denke ich, dass Sie eine Art SOL sind. In meinem Fall war es ein Unterordner, der abgelehnt wurde, sodass das erneute Lesen von robots.txt durch die bereitgestellten Mechanismen tatsächlich funktionierte.

— Fiasco Labs

-1

Ich hoffe, dieser Link hilft Ihnen beim Crawlen Ihrer Websites: https://support.google.com/adsense/answer/10532?hl=de .

Entfernen Sie /aus Ihrer robots.txt- Datei.

— Kumail
quelle

Darum geht es in dieser Frage nicht

— Der Hochstapler

-1

In meinem Fall bestand das Problem darin, dass ich einen kostenlosen DNS-Dienst namensraid.org verwendete.

(meine kostenlose Domain endete in .us.to)

Nachdem ich zu einer TLD gewechselt war, funktionierte sie.

— Stefan Monov
quelle

Ich verstehe nicht, was DNS oder eine kostenlose Website mit robots.txt zu tun haben oder Google anweisen, sie erneut abzurufen.

— Stephen Ostermiller

@ StephenOstermiller: Ich sehe es auch nicht, aber Tatsache ist, dass dies in meinem Fall geholfen hat.

— Stefan Monov

Es hat Google geholfen, Ihre robots.txt zu überprüfen?

— Stephen Ostermiller

@ StephenOstermiller: Ja.

— Stefan Monov