Wie finde ich heraus, wann eine bestimmte URL zum ersten Mal von Google indiziert wurde? Ich würde eine Lösung vorziehen, die auch für die URLs von Mitbewerbern funktioniert, die mir nicht gehören.
Wie finde ich heraus, wann eine bestimmte URL zum ersten Mal von Google indiziert wurde? Ich würde eine Lösung vorziehen, die auch für die URLs von Mitbewerbern funktioniert, die mir nicht gehören.
Antworten:
Um das Alter einer URL zu ermitteln, können Sie diesem Link folgen, www.example.com
indem Sie die gewünschte URL eingeben:
https://www.google.com/search?tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2000&q=site%3Ahttp%3A%2F%2Fwww.example.com&safe=active&gws_rd=ssl
Hier ist das Ergebnis von Google für die Meta-Site von Stack Overflow :
Ansonsten ist die Wayback-Maschine auch eine gute Lösung, aber meiner Erfahrung nach weniger genau.
.fr
zu .com
.
www
auch zu diesem Zeitpunkt entfernt habe, dass das Ergebnis für das Datum Dec 1, 2014
angezeigt wird, das ein sehr aktuelles Datum ist, das nicht das Alter der URL sein kann. Suche ich falsch oder etwas vermissen?
Zistoloen hat eine Möglichkeit gefunden, Google das Datum anzeigen zu lassen, an dem der Inhalt der Seite zum ersten Mal indiziert wurde. Ich füge es auch meiner Antwort hinzu, weil ich denke, dass ich es klarer erklären kann.
Google zeigt dann im Suchergebnis das Datum an, an dem der Inhalt auf der Seite gefunden wurde.
Wenn die Seite mit neuem Inhalt aktualisiert wird, aktualisiert Google auch dieses Datum. Es handelt sich also eher um ein Datum, an dem dieser Inhalt zum ersten Mal indiziert wurde, als um ein Datum, an dem diese URL zum ersten Mal indiziert wurde.
Der Google-Cache für eine Seite zeigt an, wann die Seite zuletzt indexiert wurde. Sie können sehen, dass die Stack Exchange-Homepage heute zuletzt indiziert wurde:
Eine andere Option ist die Verwendung des Wayback-Rechners des Internet-Archivs . Das zeigt Ihnen, wie eine Seite in der Vergangenheit aussah. Sie können herausfinden, wann die Seiten zum ersten Mal veröffentlicht wurden. Sowohl Google als auch das Internetarchiv crawlen und verwenden die Seite kurz nach ihrer Erstveröffentlichung.
bing.com
. Entschuldigung, wenn ich falsch liege?
Möglicherweise gibt es keine Möglichkeit, herauszufinden, wann eine beliebige Webseite zum ersten Mal von Google indiziert wurde - ich kenne sicherlich keine Möglichkeit, dies zu tun. Es ist möglich, dass Google diese Informationen einfach nicht speichert, da es keinen wirklichen Grund dafür gibt. Außerdem haben sie, selbst wenn sie diese Informationen speichern, keinen besonderen Grund, sie Dritten frei zugänglich zu machen.
(Wenn es sich um Ihre eigene Seite handelt und Sie Zugriff auf Ihre alten Webserver-Zugriffsprotokolle haben, ist dies ganz einfach. Durchsuchen Sie die Protokolle nach dem ersten Besuch von Googlebot auf dieser Seite. Andernfalls besteht möglicherweise keine Möglichkeit, dies mit Sicherheit festzustellen.)
Die von Zistoloen und Stephen Ostermiller in ihren Antworten beschriebene Methode gibt in der Regel nicht das Datum an, an dem eine bestimmte URL zum ersten Mal von Google indiziert wurde. Vielmehr wird das Datum angezeigt, an dem Google den Inhalt der URL für veröffentlicht oder zuletzt aktualisiert hält, und es basiert häufig auf den mehr oder weniger zuverlässigen Versuchen von Google, Daten aus dem Seiteninhalt selbst herauszuspüren.
In diesem Video geht Matt Cutts von Google kurz auf die Auswahl dieser Daten ein. Der Einfachheit halber habe ich den relevanten Teil des Videos (ungefähr von 2:09 bis 2:22) unten transkribiert:
"... Oft wird das Datum angezeigt, wenn wir es ableiten oder wenn wir es zum ersten Mal gesehen haben, wann immer wir diese Seite gecrawlt haben oder wenn wir es irgendwo auf der Seite finden und wir dieses Datum extrahieren können." Das sehe ich gleich am Anfang des Snippets. "
Bei Seiten wie Blog-Posts, Wiki-Seiten oder Stack Exchange-Fragen, bei denen die Website, auf der die Software ausgeführt wird, automatisch ein genaues Erstellungs- / Änderungsdatum auf der Seite selbst meldet, stimmt das von Google gemeldete Datum wahrscheinlich mit diesem überein. Für andere Arten von Seiten muss der Datums-Sniffer von Google jedoch härter arbeiten und macht es nicht immer richtig (was auch immer "richtig" in diesem Kontext bedeuten mag).
Insbesondere sind diese Daten aus zwei Gründen für die Ermittlung der Indexierungszeit einer Seite grundsätzlich unbrauchbar :
Wenn eine Seite kürzlich geändert wurde und das Änderungsdatum auf der Seite deutlich sichtbar ist, wird es möglicherweise von Google als "Datum" der Seite übernommen, auch wenn die Änderung völlig unbedeutend war.
Zum Beispiel diese ziemlich alt Wiki - Seite (die archive.org 2003 zunächst indiziert ) wird derzeit datestamped von Google ab November sein 10 2014 - das Datum , an dem sie wurde zuletzt bearbeitet, wie im unteren Teil der Seite angezeigt. Die Änderung, die an diesem Datum passiert ist? Entfernen Sie einfach einen einzelnen Link vom unteren Rand der Seite.
Umgekehrt ist Google anscheinend froh, sehr alte "Veröffentlichungsdaten" zu akzeptieren, wenn sie auf der Seite gefunden werden - auch solche, die vor dem Start des World Wide Web lagen .
Zum Beispiel ist diese Seite eines alten Programmierwettbewerbs von Google auf den 15. September 1986 datiert - tatsächlich das Datum des auf der Seite beschriebenen Ereignisses. In ähnlicher Weise ist diese Seite, die einen Studentenstreik 1970 dokumentiert, von Google auf den 10. Mai 1970 datiert (das Datum eines der gescannten Dokumente auf der Seite), und noch absurder ist, dass diese Linux-Handbuchseite von Google auf den 4. November datiert ist , 1989 (ein zufälliges Beispieldatum, das auf der Seite verwendet wird).
Sie können noch viele weitere Beispiele finden, indem Sie die von Stephen und Zistoloen beschriebene benutzerdefinierte Suche nach Datumsbereichen verwenden, das obere Ende des Bereichs jedoch beispielsweise auf den 6. August 1991 festlegen .