Wie wird HTTP 418 von Google und anderen behandelt, da es sich nicht um einen „echten“ Fehler handelt?


7

Ich habe mich gefragt, ob Sie wissen, wie Google und andere Suchmaschinen eine Website mit HTTP-Statuscode behandeln 418 I'm a teapot.

Laut diesem Wikipedia-Artikel kann es als Client-Fehlercode (4xx) verwendet werden. Ich möchte diesen Fehlercode für eine Osterei-Website verwenden, die dennoch von den Suchmaschinen gefunden werden sollte.

Laut diesem 4 Jahre alten Blog-Beitrag wird der Status 418 von Google ignoriert. Haben Sie aktuellere Informationen zu diesem Thema? Wie reagieren die anderen Suchmaschinen auf den Status 418 (hauptsächlich, weil es sich um einen 4xx-Code handelt)?

Antworten:


8

Wenn Sie das Tool "Als Google abrufen" in der Google Search Console auf einer Seite verwenden, die den Status "418 Ich bin eine Teekanne" zurückgibt, wird lediglich ein "Fehler" gemeldet, und für diese Seite kann keine Indizierung angefordert werden.

Im folgenden Screenshot sind die eingekreisten "Fehler" das Ergebnis der Anforderung einer Seite, die den Status 418 zurückgibt. Derzeit sind keine weiteren Informationen verfügbar.

Screenshot von Abrufen als Google-Tool mit Fehlern für 418 Seiten

Laut meinem Zugriffsprotokoll haben sowohl Googlebot als auch Search Console diese Seite besucht, sie wurde jedoch noch nicht im Index angezeigt.

Zur Verdeutlichung ist dies eine neue Seite, die zuvor nicht indiziert wurde. Es wird von einer indizierten Seite aus verlinkt, die ebenfalls (zusammen mit "verknüpften Seiten") zur Indizierung erneut eingereicht wurde - siehe Abbildung oben. Ich habe auch eine XML-Sitemap eingereicht, die diese Seite enthält (obwohl die Anzahl der "Indizierten" noch nicht gemeldet wird - SIEHE UPDATE UNTEN ). Um ehrlich zu sein, ich habe nicht viel Hoffnung - ich wäre überrascht, wenn es indexiert würde. Nicht nur, weil es sich um einen 4xx-Code handelt, sondern auch, weil es sich nicht um einen 2xx-Erfolgscode handelt.

Normalerweise können Sie einen Test "Als Google abrufen" durchführen und dann die Indizierung der Seite anfordern. Dies ist normalerweise sehr schnell ("sofort") für eine einzelne Seite - diese Option ist jedoch auf der obigen Seite nicht verfügbar.

Laut diesem 4 Jahre alten Blog-Beitrag wird der Status 418 von Google ignoriert.

Mit "ignoriert" meinen sie, dass es als 200 OK-Status behandelt wird. (Was ist nicht wirklich dasselbe wie in meinem Buch "ignoriert" zu werden, es sei denn, es wurde buchstäblich ignoriert und Google hat "nichts" getan?) Das "Problem" mit diesem Blog-Beitrag ist, dass sie eine bereits indizierte Seite testen. Die Rückgabe eines 4xx-Status würde die Seite ohnehin nicht unbedingt aus dem Index entfernen, zumindest nicht für eine beträchtliche Zeit (abhängig von der Crawling-Rate), obwohl sie Berichten zufolge "einige Wochen" gewartet haben. Außerdem werden gemeldete Crawling-Fehler in den Google Webmaster-Tools nicht erwähnt (seitdem in Google Search Console geändert).

Es ist kein "echter" Fehler

Oder ist es? Es wurde möglicherweise am Anfang als "Witz" implementiert, weist jedoch möglicherweise auf einen "Fehlerzustand" hin. Ich denke, es wäre widersprüchlicher, wenn ein 4xx-Code nicht als "Fehlerzustand" behandelt würde. Und es ist immer noch "aktuell". Der ursprüngliche RFC 2324 von 1998, der diesen Statuscode definierte, wurde 2014 sogar mit RFC 7168 aktualisiert .

Die meisten Tools sehen den 418-Status als Fehler. Oder sehen Sie nur 200 als Erfolg. "Apache Log Viewer" und "Screaming Frog SEO Spider" sehen den 418-Code sicherlich als Fehler.

Einige Webserver implementieren Berichten zufolge den 418-Statuscode:

Stack Exchange verwendet diesen HTTP-Statuscode sogar, wenn CSRF-Verstöße erkannt werden:

UPDATE 2017-03-31 (2+ Wochen später): Die Seite, die einen 418 HTTP-Statuscode zurückgibt, wird von Google nicht indiziert. Der XML-Sitemap-Bericht in GSC zeigt jetzt, dass nur eine der beiden in der Sitemap übermittelten URLs indiziert ist (eine URL gibt 200 zurück und ist indiziert, die andere gibt 418 zurück und ist nicht indiziert).

Übrigens hat GSC fast 2 Wochen gebraucht, um über den Indexstatus der URLs in der Sitemap zu berichten. Dies bezieht sich jedoch nicht darauf, wann die Seite (n) tatsächlich indiziert wurden. Beispielsweise war zum Zeitpunkt der Übermittlung der Sitemap bereits eine Seite indiziert. Wenn Sie jedoch nur den Sitemap-Bericht betrachten, sieht es so aus, als ob die Seite erst 13 Tage nach der Übermittlung der Sitemap indiziert wurde.

Die URL, die einen 418 zurückgibt, wird jetzt als "Crawl-Fehler" unter Crawl> Crawl-Fehler gemeldet, und der 418 wird als Antwortcode angegeben. Dem Bericht zufolge wurde dies am 16.03.2017 (am nächsten Tag nach Einreichung der obigen Indexanforderung) "festgestellt", es dauerte jedoch einige Zeit, bis dies in GSC gemeldet wurde.


1
Wer könnte das möglicherweise verbessern? Niemand. Prost!!
Schranknoc

3
Zusätzlich zum Status 200 weiß Google, wie man mit Weiterleitungscodes umgeht (301, 302, 303, 307, 308). Abgesehen von diesen spezifischen Codes würde ich mir vorstellen, dass Google so ziemlich alles andere als "Fehler" behandelt.
Stephen Ostermiller

1
Update: Die Seite, die einen 418 zurückgibt, ist nicht indiziert, und Google meldet dies jetzt explizit als Crawling-Fehler. Ich habe meine Antwort aktualisiert.
MrWhite
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.