Was kann dazu führen, dass im neuen GWT "Erkannt - Derzeit nicht indiziert" angezeigt wird?


18

Das neue GWT zeigt Sitemaps-Links, die in neue Kategorien unterteilt sind. Zwei, die mich verwirren: 1. Entdeckt - derzeit nicht indiziert. 2. Gecrawlt - derzeit nicht indiziert

Was sind die möglichen Gründe dafür und gibt es Auswirkungen auf die gesamte Site? Ist dies ein Zeichen von Google, das ich entfernen sollte?

Bildbeschreibung hier eingeben

Antworten:


10

Es ist nur ein Teil des Prozesses. Sie müssen nichts tun, bis Sie tatsächlich Fehler erhalten .

Um die Kategorien zu verstehen, müssen Sie wissen, wie die Indizierung funktioniert.

  • Googlebot ruft eine Seite ab, dh, der Inhalt wird auf Google-Server heruntergeladen. In diesem Fall wird die Seite gecrawlt .
  • Der Inhalt der heruntergeladenen Seite wird später in den Index aufgenommen. Dies bedeutet, dass die Seite indiziert ist .
  • Beim Durchsuchen der Seite werden "Gefällt mir" gefunden und in eine Warteschlange gestellt. Diese Links werden entdeckt .

So:

  • Entdeckt nicht indiziert Mittel die Verbindung wurde in die Warteschlange der Dinge , dass der Googlebot kann hinzugefügt schließlich kriechen. Da das Web praktisch unendlich ist und es eine Priorisierung gibt, wird es möglicherweise nie dort ankommen.
  • Derzeit nicht indexiert gecrawlt bedeutet, dass die Seite auf Google-Server heruntergeladen wurde, ihr Inhalt jedoch nicht in den Index eingefügt wurde.

1
Ich würde hinzufügen, dass Google basierend auf dem PageRank entscheidet, was gecrawlt werden soll. Wenn Sie häufiger oder häufiger (sogar intern) auf eine Seite verlinken, kann Googlebot das Crawlen dieser Seite veranlassen.
Stephen Ostermiller

3
Ich denke, "derzeit nicht indiziert" könnte auch bedeuten, dass Google sich dafür entscheidet, es nicht zu indizieren. Es könnte doppelt vorhanden sein oder von schlechter Qualität sein. Möglicherweise hat es nicht genug Pagerank. Möglicherweise geht Google davon aus, dass nicht genügend Suchanfragen gefunden werden.
Stephen Ostermiller

Darauf habe ich bei der Priorisierung hingewiesen . Dies geschieht bei Links, bei denen es sich vermutlich um Duplikate handelt (manchmal, weil sie sich nur in einem Parameter unterscheiden oder mit einem anderen Canonical übereinstimmen).
Itai

Seiten, die in "Gecrawlt, nicht aktuell indiziert" ein- und ausgeblendet werden, ohne meine Aufmerksamkeit zu erregen. Die Informationen sind auch zweifelhaft. Beispiel: Eine überprüfte URL führt zu einer Meldung, dass sie indiziert ist, jedoch nicht in einer Sitemap. Die Seite befindet sich in der Sitemap und ist seit Jahren in Betrieb. Das letzte Algo-Update hat diesen Bericht hin und her geschickt.
GLCoder

3

Google kann Ihre Seiten entdecken und crawlen, dies bedeutet jedoch nicht, dass es sie unbedingt indizieren muss.

Es gibt viele Gründe, warum Google eine Seite möglicherweise nicht indiziert. Vielleicht hat es doppelten Inhalt gefunden. Vielleicht hat es nicht das Gefühl, dass es genug Wert für bestimmte Suchanfragen bietet. Möglicherweise hat Google etwas an Ihrer Seite gefunden, das ihm nicht gefällt.

Was auch immer der Grund sein mag, Google hat sich einfach nicht entschlossen, einige der Seiten zu indizieren, die es auf Ihrer Website entdeckt und gecrawlt hat. Es ist ziemlich normal, dass einige Ihrer Seiten nicht indiziert werden. Einige der Seiten auf meinen Websites sind nicht indexiert, obwohl sie einen besseren Inhalt als viele indexierte Seiten und eine erhebliche Anzahl interner Links aufweisen. Das Indizierungssystem von Google ist ein Algorithmus für maschinelles Lernen. Aus verschiedenen unbekannten Gründen kann es daher vorkommen, dass bestimmte Seiten nicht indexiert werden.


1
"Möglicherweise wurden doppelte Inhalte gefunden"> Dies möchte ich jedoch hinzufügen. In diesem Fall bedeutet die Meldung "Erkannt - derzeit nicht indiziert", dass die Seite noch nicht abgerufen wurde (oder dass sie gecrawlt wurde) - Derzeit nicht indiziert "). Zum jetzigen Zeitpunkt wissen sie also nichts über den Inhalt. Ich denke, die Priorisierung in dieser Phase hängt von der URL selbst, der Anzahl der Seiten, die darauf verlinken, und möglichen anderen Dingen ab.
Niavlys

2

Der Googlebot verfügt über eine eigene Warteschlange, die auf verschiedenen Parametern basiert. Dies ist die Meldung, dass diese URLs sogar in die Warteschlange gestellt werden.

Bildbeschreibung hier eingeben

Aj Cohn hat eine Art lustige Meinung über die Bedeutung dieser Nachricht:

Erkannt - Derzeit nicht indiziert, zeigt dies an, dass sie es in Ihrer Sitemap sehen, aber basierend auf dem Aussehen anderer Inhalte werden sie sich nicht einmal darum kümmern, es zu crawlen. Im Grunde genommen "Ya hässlich!" Oder vielleicht ist es nur eine Darstellung der schlechten Crawling-Effizienz.

Ehrlich gesagt bin ich mir nicht ganz sicher, ob die Definition von Discovered korrekt ist, da viele der Beispiel-URLs in diesem Status das Datum des letzten Crawls aufweisen. Dies scheint der Definition zu widersprechen.


2
Ich habe das "read the manual" -Bit entfernt. Das ist nicht hilfreich Zumal die Dokumentation von Google ziemlich schlecht ist.
Stephen Ostermiller

0

Obwohl Google die URL entdeckte, war sie nicht wichtig genug, um Zeit mit dem Crawlen zu verbringen. Wenn Sie möchten, dass diese Seite organischen Suchverkehr erhält, sollten Sie die Verlinkung von Ihrer eigenen Website aus verstärken. Stellen Sie sicher, dass Sie diese Inhalte anderen zur Verfügung stellen, in der Hoffnung, dass Sie Backlinks von externen Websites erhalten. Externe Links zu Ihren Inhalten sind ein Signal an Google, dass eine Seite wertvoll ist und als vertrauenswürdig eingestuft wird. Dies erhöht die Wahrscheinlichkeit, dass sie indexiert wird.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.