Von der Domain abgelehnte Roboter werden weiterhin in den Suchergebnissen aufgeführt

9

Daher haben wir auf allen unseren Websites, auf denen keine Suche durchgeführt wird, eine robots.txt-Datei angewendet (siehe So schließen Sie eine Website aus den Google-Suchergebnissen in Echtzeit aus? Oder eine andere ähnliche Frage).

Wenn die Suchbegriffe jedoch spezifisch genug sind, kann die Domain selbst über die Ergebnisse gefunden werden. Ein Beispiel hierfür finden Sie hier . Wie Sie dem Link entnehmen können, befindet sich die Domain selbst (der Inhalt wird nicht zwischengespeichert, aber die Domain wird aufgelistet). Zusätzlich sollte eine Suche mit site:hyundaidigitalmarketing.com3 Ergebnissen durchgeführt werden. Das Überprüfen von Backlinks bietet auch einige, aber ich kann sie offensichtlich nicht verhindern (das Verknüpfen ist im Kontext zulässig) oder steuern, wie diese behandelt werden (ich kann den Host nicht anweisen, nofollow, noindex hinzuzufügen).

Jetzt weiß ich, dass dies ein schwerwiegender Randfall ist, aber meine Firmenkunden tun genau dies. Tatsächlich sind unsere Domains ziemlich gut, sodass selbst scheinbar willkürliche Suchanfragen relevante Ergebnisse liefern. Jetzt muss ich einen Bericht darüber schreiben, wie / warum dies geschieht.

Also wende ich mich an das wunderbare Stack Exchange-Netzwerk, um zu verstehen, was mir fehlt oder was passiert. Links zu Branchenartikeln sind äußerst hilfreich, aber alles, was Sie geben können, ist offensichtlich großartig. Ich beabsichtige, Kopfgelder so gut wie möglich anzubieten, um dies zu einer Antwort zu machen, an die ich mich in Zukunft wenden kann.

Bearbeiten: Ich habe ein Kopfgeld für diese Frage eröffnet, in der Hoffnung, weitere Antworten darauf zu erhalten. Ich habe auch die Ergebnisse meiner eigenen Forschung unten zur Verfügung gestellt.

seo robots.txt

— Kevin Peno
quelle

5

Ich muss nach der Quelle dieser Informationen suchen, aber anscheinend verhindert robots.txt nicht unbedingt, dass eine Seite indiziert wird. Aber der HTTP x-robots-tag-Header funktioniert anscheinend.

Wenn Sie Apache verwenden, können Sie Seiten in großen Mengen mithilfe dieser Zeile in einer .htaccess-Datei blockieren:

Header set x-robots-tag: noindex

Probieren Sie es aus und sehen Sie, was passiert.

Bearbeiten

( Eine Quelle gefunden . Nicht die, an die ich mich erinnere, aber sie funktioniert).

— John Conde
quelle

Hallo und danke für die Antwort. Wie unterscheidet sich dies von dem Robots-Meta-Tag, das bereits in der HTML-Ausgabe der oben als Beispiel verwendeten Site implementiert ist? Soweit ich das beurteilen kann, dient dies nur als Ersatz, sodass Sie es nicht auf jede Seite setzen müssen.

— Kevin Peno

@ Kevin, Sie sollten in Bezug auf die Wirksamkeit gleich sein. Dies wäre einfach einfacher zu handhaben, wie Sie sagten.

— John Conde

4

Ich denke, Matt Cutts hat darüber gesprochen. Wenn mein Gedächtnis korrekt ist, hat es mit dem Verknüpfen zu tun. Hier ist mehr: http://www.google.com/support/forum/p/Webmasters/thread?tid=2720810fa226e9c8&hl=de

Sie können sie mit dem Google-Entfernungsprogramm entfernen.

— Joe
quelle

Sie können alle anzeigen mit: site: gmpackageguide.com Es gibt nicht viele URLs. Ich gehe davon aus, dass sie im Index waren, bevor die Roboter nicht zugelassen wurden. Ich würde sie einfach entfernen.

— Joe

In Zukunft würde ich die Webdesigner anweisen, immer keinen Index und kein Follow in den Abschnitt mit dem Webseitenkopf aufzunehmen. Ich vermute, dass das von Ihnen verwendete CMS dies kann.

— Joe

@Joe - stimme zu, würde aber empfehlen noindex, follow, dass jeder PageRank über möglicherweise auftretende Backlinks verteilt wird.

— Mike Hudson

@ Joe & @ Mike, danke für die Information. Nehmen Sie jedoch die Website: hyundaidigitalmarketing.com. Ich habe diese Seite vor einem Jahr selbst gestartet. Es enthält sowohl eine robots.txt-Datei als auch den Meta-Header. Wie Sie jedoch sehen können, führt das Formular eine Suche bei Google mit site:hyundaidigitalmarketing.comoder nach den Begriffen durch hyundai digital marketing, und die Domain selbst wird weiterhin als erstes und bestes Ergebnis angezeigt. Ich muss das verhindern.

— Kevin Peno

Auch eine Suche nach links:hyundaidigitalmarketing.comzeigt Backlinks. Ich kann die Formatierungs-Backlinks offensichtlich nicht verhindern oder kontrollieren UND sie sind möglicherweise gültig. Wenn dies durch das Verknüpfen mit der Site verursacht wird, muss ich verstehen, wie / warum, damit ich dies meinen Vorgesetzten erklären kann. Ich hoffe das erklärt meine Frage etwas besser.

— Kevin Peno

3

Aufgrund meiner Recherchen zu diesem Thema habe ich festgestellt, dass es keinen 100% garantierten Weg gibt, um das Indizieren und Zwischenspeichern von Daten zu verhindern, aber Sie können verdammt nahe kommen (vorausgesetzt, Sie möchten mit erhöhtem Bot-Verkehr umgehen). So habe ich die Informationen interpretiert.

Man könnte meinen, dass die robots.txt-Datei verwendet wird, um Roboterinformationen auf der gesamten Website zu definieren, und Meta-Tags für seitenspezifische Details verwendet werden. Ich denke, der Geist hinter den 2 ist genau das, aber dies ist in der Praxis nicht der Fall.

Erstellen Sie keine robots.txt- Datei

Dies funktioniert mit allen wichtigen Suchanbietern, um zu verhindern, dass Inhalte auf dem SERP angezeigt werden, verhindert jedoch nicht die Indizierung. Dies verhindert auch, dass Bots Ihre Seiten crawlen, sodass auch Roboter-Meta-Tags (siehe unten) ignoriert werden. Aus diesem Grund können Sie die 2 nicht zusammen verwenden. Wenn Sie die Indizierung verhindern möchten, sollten Sie daher keine robots.txt-Datei verwenden.

Randnotiz: Google unterstützt die Verwendung von Noindex: /in robots.txt, aber es ist nicht dokumentiert (wer weiß, wann es kaputt geht) und unbekannt, ob dies für andere funktioniert.

Verwenden Sie HTTP-Header oder HTML-META-Tags, um alles zu verhindern

Im Gegensatz zur robots.txt-Datei wird das Robots-Meta-Tag (und der HTTP-Header) weitgehend unterstützt und ist überraschenderweise funktionsreich. Es ist so konzipiert, dass es auf jeder Seite festgelegt wird. Die kürzlich erfolgte Übernahme des X-Robots-TagHeaders erleichtert jedoch das Festlegen auf der gesamten Website. Der einzige Nachteil bei dieser Methode ist, dass Bots Ihre Site crawlen. Dies kann durch die Verwendung eingeschränkt werden nofollow, aber nicht alle Bots respektieren dies wirklich nofollow.

Ich habe eine Menge Informationen in diesem veralteten Blog-Beitrag gefunden . Die ursprüngliche Version war 2007, aber da viele der Informationen seitdem neuere Funktionen sind, scheint sie regelmäßig aktualisiert zu werden.

Zusammenfassend sollten Sie einen HTTP-Header von senden X-Robots-Tag: noindex,nofollow,noodp,noydir. Hier ist die Aufschlüsselung des Grundes:

nofollowsollte die Anzahl der auf Ihrer Website gecrawlten Seiten begrenzen und den Bot-Verkehr gering halten. * noindexweist Engines an, die Seite nicht zu indizieren.
Nun könnten Sie annehmen, dass noindexdies ausreichen könnte. Ich habe jedoch festgestellt, dass noindexIhre Website möglicherweise indiziert wird , obwohl andere Websites darauf verlinken. Der beste Weg, um gemeinsame Site-Links von Y zu verhindern! Directory ( noydir) und Open Directory ( noodp).
Die HTTP - Header unter Verwendung auch gilt die Roboter von Daten in Dateien, Bilder und anderen Nicht-HTML - Dateien! YAY!

Dies funktioniert in 99% der Fälle. Beachten Sie jedoch, dass es in einigen Fällen immer noch möglich ist , von einigen Anbietern indiziert zu werden. Google behauptet, voll und ganz zu respektieren noindex, aber ich habe meinen Verdacht.

Wenn Sie indiziert werden oder bereits indiziert wurden, können Sie Ihre Informationen nur deindizieren, indem Sie den verschiedenen Methoden jedes Anbieters folgen, um die Entfernung der Site / URL zu beantragen. Dies bedeutet natürlich, dass Sie die Websites / Seiten wahrscheinlich mit Google Alerts überwachen möchten (danke @Joe).

— Kevin Peno
quelle

3

Ich denke, Ihr grundlegendes Problem sind die Backlinks zur Website, da diese den Suchmaschinen einen Einstiegspunkt in die Website geben und sie darauf aufmerksam machen. Obwohl sie keine Beschreibung für die Site anzeigen, wird möglicherweise die URL angezeigt, wenn sie der Meinung sind, dass sie am besten zum Ergebnis passt.

Lesen Sie diesen Artikel, der mit dem von @joe geposteten Artikel verlinkt ist: Matt Cutts hält Google fern

Das Schlüsselbit ist:

Dafür gibt es einen guten Grund: Als ich im Jahr 2000 bei Google anfing, hatten einige nützliche Websites (eBay, die New York Times, die kalifornische DMV) robots.txt-Dateien, die jegliches Abrufen von Seiten untersagten. Jetzt frage ich Sie, was sollen wir als Suchergebnis zurückgeben, wenn jemand die Abfrage [california dmv] ausführt? Wir würden ziemlich traurig aussehen, wenn wir nicht als erstes Ergebnis www.dmv.ca.gov zurückgeben würden. Aber denken Sie daran: Zu diesem Zeitpunkt durften wir keine Seiten von www.dmv.ca.gov abrufen. Die Lösung bestand darin, den nicht gezeichneten Link anzuzeigen, wenn wir ein hohes Maß an Vertrauen hatten, dass es sich um den richtigen Link handelt. Manchmal konnten wir sogar eine Beschreibung aus dem Open Directory-Projekt abrufen, sodass wir den Benutzern viele Informationen geben konnten, auch ohne die Seite abzurufen.

Die Forschung, die Sie durchgeführt haben, deckt auch die Dinge gut ab und die Antworten von @john und @joe sind beide relevant. Ich habe unten einen Link eingefügt, der weitere Hinweise zum Blockieren von Suchmaschinen gibt. Die einzige Möglichkeit, die Site vollständig zu blockieren, besteht darin, vor der Site eine Art Passwortschutz hinzuzufügen, der abgeschlossen sein muss, bevor der Inhalt angezeigt wird.

SEOMoz Tipps, wie Sie nicht in der Suche erscheinen

— Matthew Brookes
quelle

Vielen Dank für das Hinzufügen zur Diskussion. Der Kennwortschutz verhindert das Crawlen, verhindert jedoch nicht die Indizierung. Da die robots.txt gute Arbeit leistet, um dies zu stoppen, besteht der einzige Vorteil des Passwortschutzes darin, dass neugierige Blicke ihn nicht finden. Leider sind die meisten Inhalte nicht sensibel genug, um "geschützt" zu werden, und garantieren sicherlich nicht die damit verbundenen Usability-Probleme. [Fortsetzung ...]

— Kevin Peno

Eine Analogie, die ich bei meiner Recherche am hilfreichsten fand, war der Vergleich mit Telefonbüchern. Wenn Suchmaschinen Telefonbücher sind und Sie darum bitten, nicht gelistet zu werden, können Sie darum bitten, niemals gelistet zu werden, und sie sollten dies respektieren. Leider verhalten sich Suchmaschinen ähnlicher wie die Unternehmen, an die andere Unternehmen Kontakte verkaufen, an die wiederum jeder vergeben wird, der bereit ist, dafür zu zahlen / zu fragen.

— Kevin Peno

@ Kevin Ich verstehe, was Sie sagen, leider glaube ich nicht, dass es möglich sein wird, vollständig entfernt zu werden, wenn Suchmaschinen derzeit funktionieren. Das Beste, auf das Sie hoffen können, ist in diesem Fall nur eine URL-Auflistung.

— Matthew Brookes

Oh, das verstehe ich jetzt (nach der Recherche). Bitte nehmen Sie meinen Kommentar zu Ihrer Antwort auch nicht in ein negatives Licht. Ich schätze Ihre Hinzufügung zum Thema. Ich habe lediglich geantwortet, um die Nachteile der Implementierung einer solchen Lösung hinzuzufügen, und ich nehme an, dass ich ein wenig Off-Topic-Banter hinzugefügt habe. : P

— Kevin Peno