HTTP: Wie kann ich zu einem bestimmten Zeitpunkt in der Zukunft aus Suchmaschinen gelöscht werden?

7

Gibt es eine Möglichkeit, Suchmaschinen mitzuteilen, dass eine von ihnen gecrawlte Seite jetzt in die Suchergebnisse aufgenommen werden soll, aber zu einem bestimmten Zeitpunkt in der Zukunft gelöscht werden muss?

Ich habe eine Website, auf der täglich Hunderte von Veröffentlichungen stattfinden, und ich möchte, dass sie gecrawlt und durchsuchbar sind. Ich bin jedoch gesetzlich verpflichtet, die Informationen nach einer Weile zu entfernen (individuelles Datum für jede Seite).

Nach diesem angegebenen Datum ist die Seite auf meiner Website nicht mehr sichtbar (HTTP-Antwort 410 weg), aber die Seite verbleibt z. B. eine Weile im Google-Cache, was zu rechtlichen Problemen für mich führen kann. Offensichtlich ist es nicht möglich, Hunderte von Anfragen zum Entfernen von Inhalten per Hand an Google zu senden. Auf der anderen Seite werden die einzelnen Seiten einige Monate lang nicht geändert, bis sie verworfen werden müssen, sodass Google Bot nicht oft eincheckt.

Soweit ich weiß, ist der HTTP Expires-Header eine Bezeichnung für minimale Aktualisierungen und nicht für maximale Lebensdauer, richtig? Ich sende zuletzt geänderte at- und etag-Header, aber sie helfen hier nicht weiter. Gibt es eine Möglichkeit, "Cache, aber nur bis 15.08.2011" zu sagen?

http search-engines

— Jan.
quelle

Für Google könnten Sie versuchen: <meta name = "googlebot" content = "nosnippet">

Darüber hinaus weist das Noarchive-Tag Google an, keine zwischengespeicherte Kopie Ihrer Seite zu speichern.

5

Für Google gibt es ein Meta-Tag namens unavailable_after , das genau das tut, wonach ich gesucht habe: Es weist Google an, eine bestimmte Seite zu einem bestimmten Zeitpunkt in der Zukunft zu entfernen.

Dies ist der einzige Weg, um das zu erreichen, was ich mir erhofft hatte: Das automatische Entfernen der Seiten zum richtigen Zeitpunkt, ohne dass der Crawler zurückkommt und die 410 Gone-Antwort bemerkt, die einige Wochen nach dem Inhalt dauern kann entfernt.

Beispiel:

<META NAME = "GOOGLEBOT" CONTENT = "nicht verfügbar_nach: 25.08.2007 15:00:00 EST" />

Oder mit HTTP-Header für PDFs usw.:

X-Robots-Tag: unavailable_after: 23 Jul 2007 15:00:00 PST

Quellen: http://googleblog.blogspot.com/2007/07/robots-exclusion-protocol-now-with-even.html und http://www.google.com/support/webmasters/bin/answer.py? Antwort = 79812

Ich konnte nicht herausfinden, ob Bing, Yahoo & Co dieses Google-spezifische Tag übernommen haben.

— Jan.
quelle

2

Erstens haben Sie keine Kontrolle darüber, welche Suchmaschinen crawlen und was sie in ihren Index aufnehmen.

ABER Google nimmt Ihre Informationen über die Live-Zeit Ihrer Seiten sehr ernst. Wenn Sie also den richtigen HTTP-Header hinzufügen, werden diese Informationen berücksichtigt. Sie können Ihrer robots.txt auch einige Informationen hinzufügen, welche Seiten ungültig sind.

Es gibt auch die Webmaster-Tools, mit denen Sie Google anweisen können, Seiten aus dem Index zu entfernen.

Im offiziellen Google Webmaster-Blog finden Sie sehr hilfreiche Informationen zum Entfernen von URLs aus dem Index und zum erneuten Einschließen von Inhalten . Dort heißt es, dass Sie URLs entfernen können, indem Sie:

mit 410,
robots.txt oder die
noindex meta tag

— powtac
quelle