Google durchsucht und indiziert immer noch meine alten Dummy-Testseiten, die jetzt nicht gefunden wurden


19

Ich habe meine Website mit Beispielseiten und -daten (lorem ipsum usw.) eingerichtet und Google hat diese Seiten gecrawlt. Ich habe alle diese Seiten gelöscht und tatsächlich echten Inhalt hinzugefügt, aber in den Webmaster-Tools erhalte ich immer noch eine Menge 404-Fehler, die Google beim Crawlen dieser Seiten verursacht. Ich habe sie auf "Als gelöst markieren" gesetzt, aber einige Seiten werden immer noch als 404 zurückgegeben.

Außerdem werden noch viele dieser Beispielseiten aufgelistet, wenn ich meine Website bei Google durchsuche. Wie man sie entfernt. Ich denke, diese irrelevanten Seiten beeinträchtigen meine Bewertung.

Eigentlich wollte ich alle diese Seiten löschen und meine Website als neue indizieren, aber ich habe gelesen, dass dies nicht möglich ist. (Ich habe eine Sitemap eingereicht und "Als Google abrufen" verwendet.)

Antworten:


17

Okay. Das wichtigste zuerst. Kennzeichnen Sie Ihren 404 nicht als repariert . Sie verlängern das Problem tatsächlich. Google wird versuchen, eine Seite, die einen 404 zurückgibt, mehrere Male abzurufen, bevor es aufgibt. Dies liegt daran, dass der Fehler 404 auf eine vorübergehende Situation hinweist, in der ein Fehler 410 besagt, dass die Seite verschwunden ist . Jedes Mal, wenn Sie einen Fehler 404 als behoben markieren , weisen Sie Google an, es erneut zu versuchen, wodurch der Eliminierungsprozess erneut gestartet wird.

Lassen Sie diese Seiten nur eine Weile lang 404, und Google hört auf, nach ihnen zu suchen, und löscht die Seiten aus dem Index. Es wird einige Zeit dauern, aber bis auf einen Fehler von 410 ist dies der einfachste Weg. Ein 410-Fehler würde den Prozess beschleunigen, aber es ist schwieriger, einen 410-Fehler darzustellen, und ein 404-Fehler ist die Standardeinstellung, die ihn zur einfacheren und natürlicheren Lösung macht.

Ihre entfernten Seiten verschwinden in ca. 30-60 Tagen, wenn Sie warten können. Dies hängt davon ab, wie oft Google Ihre Seiten besucht. Es kann länger dauern, aber sobald die 404 gefunden wurden, prüft Google die Website zuerst. Je nachdem, wie viele 404 vorhanden sind, wird Ihre Website möglicherweise aggressiver.

Die Verwendung einer Sitemap behebt im Allgemeinen keine Probleme mit dem Index. Das macht das Leben für Suchmaschinen nur einfacher. Es wird niemals als die Gesamtliste der Seiten einer Website angesehen. Wenn eine Suchmaschine eine Sitemap liest und dennoch Seiten findet, die nicht in der Sitemap aufgeführt sind, indiziert sie diese Seiten weiterhin.

Eine Möglichkeit, die sinnvoll ist, besteht darin, diese Seiten in Ihrer robots.txt-Datei aufzulisten. Wenn es nicht zu viele gibt (was bedeutet, dass Sie etwas tun können und Ihre robots.txt-Datei nicht zu lang wäre), wäre dies eine schnellere Lösung. Ansonsten würde ich einfach warten und die 404-Fehler von alleine ablaufen lassen.

Ein letztes Wort. Du wirst okay sein. Ja wirklich. Wenn Sie geduldig sind, funktioniert alles sehr gut für Sie.


1
Das Hinzufügen von 404 Seiten zu robots.txt klingt nach einer schlechten Praxis. Dies wird den Crawler nur verwirren und erfordert eine Menge unnötiger Haushaltsarbeiten.
Dorus

@Dorus Überhaupt nicht. Das eine hat nichts mit dem anderen zu tun. Durch Hinzufügen einer beliebigen Seite zur robots.txt-Datei wird die Seite sehr schnell aus dem Index entfernt. Auch die Suchmaschine wird nicht versuchen, auf die Datei zuzugreifen und daher auch nicht 404.
closetnoc

1
Wie Sie sagen, versucht die Suchmaschine nicht, auf die Seite zuzugreifen, wenn Sie sie zur robots.txt hinzufügen, aber die Seite bleibt bestehen. Wenn Sie es also eines Tages von den Robotern entfernen, kehrt die Indizierung zurück. Es ist besser, den 404 oder 410 die Arbeit machen zu lassen.

@closetnoc Was hast du damit gemeint it is harder to present a 410 error?
Evgeniy

@Evgeniy Standardmäßig wird ein 404-Fehler ausgegeben (mindestens Apache und älterer IIS). Ein 410-Fehler müsste beabsichtigt sein und erfordert einige Arbeit, um dies zu erreichen. Technisch ist es keine schwierige Aufgabe, erfordert jedoch etwas Fachwissen, wenn auch nicht viel. Prost!!
Closetnoc

8

Sobald Sie eine Seite veröffentlicht haben, wird Google diese niemals vergessen. Ich habe Websites, von denen ich vor 15 Jahren Seiten entfernt habe. Der Googlebot kehrt immer noch zurück und überprüft diese Seiten gelegentlich.

Um zu verhindern, dass die Seiten in der Suchmaschine angezeigt werden, werden Ihre 404-Fehler den Job erledigen. Es kann einen Tag dauern, bis Google die Seite aus dem Index entfernt, nachdem Googlebot sie als Nächstes gecrawlt hat. Wenn Sie es schneller entfernen möchten, geben Sie stattdessen den Status "410 Gone" zurück. Google entfernt 410 Seiten sofort nach dem Crawlen, anstatt einen Tag zu warten. Google entfernt 404 Seiten nicht sofort, um zu verhindern, dass Webmaster sich selbst in den Fuß schießen, wie von Matt Cutts beschrieben :

Wenn wir also bei 404s, zusammen mit 401s und vielleicht 403s, eine Seite sehen und eine 404 erhalten, werden wir diese Seite für 24 Stunden im Crawling-System schützen vorübergehend 404, vielleicht war es wirklich nicht beabsichtigt, dass eine Seite nicht gefunden wurde.

Eine andere Methode, die Sie in Betracht ziehen könnten, ist die Umleitung. Wenn Sie eine alte Seite zu einer Ersatzseite umleiten, wird sie nicht als Fehler in den Google Webmaster-Tools angezeigt. Dies ist nur möglich, wenn für jede der alten Seiten eine neue Seite vorhanden ist. Das Umleiten aller Testseiten auf Ihre Homepage hilft nicht weiter, da Google Weiterleitungen auf die Homepage als "Soft 404" -Fehler betrachtet, die in diesem Bericht weiterhin angezeigt werden.

404-Fehler in den Webmaster-Tools schaden Ihnen nicht. Es kann sogar hilfreich sein, 404-Fehler auf Ihrer Website zu haben, da Googlebot darauf hinweist, dass Ihre Website korrekt konfiguriert ist. Dies ist, was Googles John Müller (der an den Webmaster-Tools und Sitemaps arbeitet) zu 404-Fehlern sagt, die in den Webmaster-Tools auftreten :

HILFE! MEINE WEBSITE HAT 939 CRAWL-FEHLER !! 1

Ich sehe diese Art von Fragen mehrmals pro Woche. Sie sind nicht allein - viele Websites weisen Crawling-Fehler auf.

  1. 404-Fehler bei ungültigen URLs schaden in keiner Weise der Indizierung oder dem Ranking Ihrer Website . Es spielt keine Rolle, ob es 100 oder 10 Millionen gibt, sie schaden dem Ranking Ihrer Website nicht. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. In einigen Fällen können Crawling-Fehler von einem legitimen strukturellen Problem innerhalb Ihrer Website oder Ihres CMS herrühren. Wie sagst du es? Überprüfen Sie den Ursprung des Durchforstungsfehlers. Wenn auf Ihrer Website ein fehlerhafter Link im statischen HTML-Code Ihrer Seite vorhanden ist, lohnt es sich immer, diesen zu beheben. (danke + Martino Mosna )
  3. Was ist mit den funky URLs, die "eindeutig defekt" sind? Wenn unsere Algorithmen wie Ihre Website versuchen, mehr großartigen Inhalt darauf zu finden, indem sie beispielsweise versuchen, neue URLs in JavaScript zu entdecken. Wenn wir diese "URLs" ausprobieren und einen 404 finden, ist das großartig und zu erwarten. Wir möchten einfach nichts Wichtiges verpassen (fügen Sie hier übermäßig angehängte Googlebot-Meme ein). http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. Sie müssen Crawling-Fehler in den Webmaster-Tools nicht beheben. Die Funktion „Als fest markiert“ soll Ihnen nur helfen, wenn Sie Ihren Fortschritt dort verfolgen möchten. Es ändert nichts in unserer Web-Such-Pipeline. Sie können es ignorieren, wenn Sie es nicht benötigen. http://support.google.com/webmasters/bin/answer.py?answer=2467403
  5. Wir listen Crawling-Fehler in den Webmaster-Tools nach Priorität auf, was auf mehreren Faktoren beruht. Wenn die erste Seite mit Durchforstungsfehlern eindeutig irrelevant ist, werden Sie auf weiteren Seiten wahrscheinlich keine wichtigen Durchforstungsfehler finden. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. Es ist nicht erforderlich, Crawling-Fehler auf Ihrer Website zu beheben. 404 zu finden ist normal und wird von einer gesunden, gut konfigurierten Website erwartet. Wenn Sie über eine gleichwertige neue URL verfügen, empfiehlt es sich, diese umzuleiten. Andernfalls sollten Sie keine gefälschten Inhalte erstellen, nicht auf Ihre Homepage umleiten, und robots.txt sollte diese URLs nicht verbieten - all diese Dinge erschweren es uns, die Struktur Ihrer Site zu erkennen und ordnungsgemäß zu verarbeiten. Wir nennen diese "weichen 404" -Fehler. http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. Offensichtlich sollten Sie sofort Maßnahmen ergreifen, wenn diese Durchforstungsfehler für URLs angezeigt werden, die Sie interessieren, z. B. für URLs in Ihrer Sitemap-Datei. Wenn der Googlebot Ihre wichtigen URLs nicht crawlen kann, werden sie möglicherweise aus unseren Suchergebnissen entfernt und Nutzer können möglicherweise auch nicht auf sie zugreifen.

1
Das war überhaupt nicht meine Erfahrung. Google möchte einen neuen Index und löscht Seiten ziemlich schnell. Ich sehe, dass es ähnlich aussieht wie das, was Sie beschreiben, dass andere Websites, die in der Vergangenheit die Google-API verwendet haben, ihre Daten nicht aktualisieren und Ihre älteren Arbeiten zitieren. Dies sind häufig Spam- / Junk-Websites, und diese Zitate können erscheinen / bleiben / verschwinden / wieder auftauchen. Der Hauptgrund, den ich dafür sehe, ist, dass die Google-API früher eher promiskuitiv war und daher Spam-Daten nicht mehr viel älter sind, da neuere Daten sehr schwer zu beschaffen sind, insbesondere, wenn Sie in der Vergangenheit Spam-Nachrichten gesendet haben.
Closetnoc

1
Googlebot hat einen Crawling-Modus, den ich "Wir haben eine URL-Box im Keller gefunden" nenne. In diesem Crawling-Modus werden möglicherweise tausend URLs von Ihrer Website in einer Reihe gecrawlt, von denen Sie seit Jahren keine mehr verwendet haben. Die URLs haben normalerweise keine eingehenden Links, auch nicht von Scraper-Sites. Sie werden in der Reihenfolge ihrer Länge gecrawlt. Kürzere URLs werden zuerst gecrawlt.
Stephen Ostermiller

Das könnte stimmen. Google ist eindeutig Big Data. Jede große Datenbank enthält Rauschen. Das ist unvermeidlich. Das ist es, was du erlebst. Möglicherweise werden verschiedene Datenbanken abgeglichen. Das macht Sinn. Ich warne Sie aber auch, dass Junk-Sites mit alten Links und alten Zitaten nur zwei Stunden lang angezeigt werden können. Ich sehe das täglich. Sie sind hauptsächlich in Russland und Polen. Diese Websites werden zum Spielen lokaler Suchmaschinen verwendet, wirken sich jedoch auf den Datenverkehr auf allen Websites aus und können von Google abgerufen werden. Ich habe jeden Tag ungefähr 12 davon in meiner Datenbank. Im Allgemeinen verbleibt für einen bestimmten Zeitraum nur 1 von 12 Standorten.
Closetnoc

Was ist ein 939 Fehler?
Greg Nickoloff

939 ist die Anzahl der Fehler, es ist keine Art von Fehler.
Stephen Ostermiller

5

Google wird wahrscheinlich noch lange versuchen, diese Seiten zu crawlen. Webmaster machen Fehler oder Websites sind aus irgendeinem Grund nicht mehr verfügbar. Daher entfernt Google Inhalte nicht beim ersten Anzeichen eines 404.

Alternativ könnten Sie stattdessen einen 410 Gone bedienen. Dies ist ein viel stärkeres (dh absichtliches) Signal, dass die Seite buchstäblich "verschwunden" ist und nicht zurückkommt. Dies könnte dazu führen, dass Google die Seite früher aus den SERPs entfernt.

Ich habe sie auf "Als gelöst markieren" gesetzt, aber einige Seiten werden immer noch als 404 zurückgegeben.

Sie werden nur "aufgelöst", wenn Sie die Seite zurückgelegt haben. Wenn Sie es als behoben markieren und die Seite nicht vorhanden ist, tritt der Crawling-Fehler erneut auf. Wenn die Seite nicht existiert, lass sie einfach so wie sie ist.

Echte 404's schaden Ihrem Suchranking nicht. Der 404-Bericht in GWT ist in erster Linie zu Ihrem Vorteil, damit Sie sehen können, wenn etwas schief geht ... wenn Seiten nicht gefunden werden, die gefunden werden sollten!

Diese irrelevanten Seiten in den SERPs stören Ihre Benutzer möglicherweise nur geringfügig. Wonach suchen sie jedoch, um Ihr Lorem Ipsum zu finden ?

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.