Wird das Verbot von Bots es schwieriger machen, eine Website in Suchmaschinen zu finden?

7

Ich verwende Apache 2 und ein großer Teil unserer Seitenaufrufe stammt von Bots. Die meisten davon sind legitime wie Google und Bing.

Ich möchte die Protokolle analysieren und genaue Statistiken darüber erhalten, wie viele menschliche Besucher ich habe. Daher habe ich robots.txt vorübergehend aktualisiert, um Bots auf allen Seiten zu sperren. Ich weiß, dass dies nur teilweise wirksam ist, um den Bot-Zugriff zu verhindern, aber ich bin damit einverstanden.

Wie wirkt sich das Nichtzulassen von Bots auf Benutzer aus, die nach dieser Site suchen? Verhindert es, dass Nutzer die Seite bei Google finden?

web-crawlers robots.txt

— Tensigh
quelle

17

Wenn Sie "die Protokolle analysieren möchten, damit ich so wenig Statistiken von den Bots bekomme", dann tun Sie genau das und analysieren Sie die Protokolle. (?!)

— MrWhite

5

Nach den Aussagen von w3d identifizieren sich alle wichtigen Suchmaschinen-Bots eindeutig mit dem User-Agent-Header.

— Brendan Long

2

Wenn Sie Google anweisen, in robots.txt zu verschwinden, nehmen sie Ihr Wort dafür, dass Sie nicht indiziert werden möchten, und Ihr Ranking verschwindet. Das Zurückholen Ihres Rankings kann einige Zeit dauern, nachdem Sie einen solchen Stunt ausgeführt haben.

— Fiasko Labs

13

Durch das Verbot von Bots kann keine Suchmaschine den Inhalt der Website abrufen.

Letztendlich werden Sie keine Keywords bewerten. Es wäre nahezu unmöglich, Ihre Seite bei Google zu finden. Möglicherweise erhalten Sie Empfehlungsverkehr, aber keinen organischen Verkehr.

Hinweis: Robots.txt verbietet keine Bots, fordert sie jedoch auf, die Site nicht zu indizieren und zu crawlen. Welche großen Suchmaschinen-Bot wie Google, Yahoo & Bing folgen.

— Sidh
quelle

Das habe ich mir gedacht.

— Tensigh

12

Können Sie bitte Ihre Antwort aktualisieren, um zu erklären, dass robots.txt keine "Bots verbietet". Es fordert Bots höflich auf, die Website nicht zu crawlen und Suchmaschinen nicht zu indizieren. Nichts hindert jemanden daran, Ihre Website zu crawlen.

— ErlVolton

1

Hinzufügen zu dem, was @ErlVolton gesagt hat. Die böswilligen Bots, die Sie vermutlich verbieten möchten, werden Ihrem robots.txt-Verbot von Bots keine Beachtung schenken. Der einzige Effekt, den dieses Verbot haben wird, ist, Ihre SEO zu verletzen.

— Dennis

@ErlVolton +1 für "höflich fragen Bots"

— V 奇说 ArchVlog - 何魏奇

Ich denke, der Fachbegriff ist "Disallow", was IMO immer noch keine sehr gute Darstellung dessen ist, was passiert. Vielleicht "RequestNoCrawl" oder etwas wäre besser :)

— ErlVolton

21

Das Verbot von Bots ist eine vergebliche Aktivität. Die einzigen Bots, die robots.txt gehorchen, sind hilfreiche Bots wie Googlebot und Bingbot. Böswillige Bots oder noch weniger skrupellose Suchdienst-Bots ignorieren Ihre robots.txt.

Das Sperren von Bots ist nur ein sicherer Weg, um das gesamte Seitenranking bei den wichtigsten Suchanbietern zu verlieren, UND Ihre Protokolle sind weiterhin voller Bot-Traffic.

— Chris Marisic
quelle

6

+1 und Ihre Protokolle sind immer noch voller Bot-Verkehr. Nur eine bestimmte Ablehnung in .htaccess hält sie fern und Sie erhalten immer noch eine 403 für jeden Link, den sie aus externen Referenzen kennen. Sie können einfach keine Seite einlesen und mit dem Crawlen beginnen. Die Liste wird mächtig lang ...

— Fiasco Labs

1

+1 das ist die Antwort. Es gibt keine Stopp-Bots, insbesondere keine böswilligen Bots.

— Qix - MONICA wurde

2

@Qix Ich habe einige Websites gesehen, die ein IP-Verbot gegen jeden verhängt haben, der eine bestimmte URL besucht hat (die sowohl in robots.txt verboten als auch deutlich mit "Klicken Sie nicht auf diesen Link, sonst werden Sie gebannt" für Menschen gekennzeichnet ist). Das scheint mir ein ziemlich effektiver Weg zu sein, um skrupellose Crawler anzugreifen. Zugegeben, es tut nicht viel gegen einen Bot, der speziell für Ihre Website entwickelt wurde.

— Brilliand

1

@ ChrisMarisicand clearly labeled with "don't click this link or you will get banned" for humans

— Qix - MONICA wurde

2

@Brilliand Klingt nach einer unterhaltsamen Möglichkeit, andere Benutzer über CSRF zu sperren.

— CodesInChaos

3

Google crawlt möglicherweise weiterhin Seiten, die von robots.txt ignoriert werden, und listet sie möglicherweise sogar auf. Siehe URLs mit robots.txt blockieren und Ignoriert Google robots.txt

— Andrew Kelly
quelle

"Google kann weiterhin Seiten crawlen, die von robots.txt ignoriert werden" - Mit "ignoriert" meinen Sie URLs, die nicht von robots.txt blockiert werden?

— MrWhite

1

Dieser Satz in der Antwort "Ignoriert Google robots.txt" ist ebenfalls falsch . Google indiziert möglicherweise Seiten, die mit robots.txt verknüpft sind, auch wenn sie in robots.txt nicht zulässig sind, sie werden jedoch nicht gecrawlt.

— Stephen Ostermiller

3

Es ist wahrscheinlich sehr schwierig oder unmöglich, Ihre Website in Suchmaschinen zu finden, da die Suchmaschinen ihre Roboter nicht senden, um zu sehen, was sich auf Ihrer Website befindet. Sie wissen nicht, welche Wörter Sie verwenden, daher fällt es ihnen schwer zu sagen, für welche Suchanfragen Ihre Website relevant sein könnte.

Es ist jedoch möglich, dass Ihre Website weiterhin in den Suchergebnissen angezeigt wird, insbesondere wenn eine hochrangige Website einen Link zu Ihrer Website enthält. Google und möglicherweise andere Suchmaschinen verwenden möglicherweise nur Informationen aus dem Link, um zu entscheiden, ob Ihre Website auf ihren Ergebnisseiten angezeigt werden soll.

— bdsl
quelle

Dies ist eine perfekte Information. Diese Seite ist eigentlich eine Subdomain unserer Hauptseite, von der ich den Suchmaschinenrang bevorzuge. Es ist also perfekt zu wissen, dass unsere Hauptseite die Seitenrankings erhält. Vielen Dank!

— Tensigh

1

Die Daten aus Serverprotokollen sind begrenzt und weisen dank Faktoren wie Bots, Caching und CDN unvermeidlich ein hohes Verhältnis von Rauschen zu Signal auf.
Das Analysieren von Seitenaufrufen ist eine Aufgabe für die Analyse von Seiten-Tags.

— Adria
quelle

0

Die richtige Antwort ist, sich nicht mit robots.txt herumzuschlagen und stattdessen Ihre Protokolle zu analysieren, indem Sie den User-Agent-Header wie in den Kommentaren erwähnt betrachten. Google, Yahoo usw. sollten sich anhand dieses Headers als Bots identifizieren. Wenn Sie Bots über robots.txt nicht zulassen, fahren Sie mit einem LKW durch Ihr Suchmaschinenranking. Wie @adria sagte, gibt es Tools, die dies für Sie tun können. Sehr beliebt ist Google Analytics . Hier erfahren Sie, wie sie mit Crawler-Datenverkehr umgehen .

— ErlVolton
quelle

0

Da ist deine erklärte Absicht zu

Erhalten Sie genaue Statistiken darüber, wie viele menschliche Besucher ich bekomme.

Die geeignete Lösung besteht darin, einen Dienst wie Google Analytics oder New Relic zu verwenden . Sobald Sie sich angemeldet haben, fügen Sie einen Ausschnitt aus Javascript in Ihre Seite ein (viele Engines wie WordPress können dies automatisch oder mit einem Plugin tun), der Informationen an den Überwachungsdienst sendet . Sobald ein solcher Dienst eingerichtet ist, erhalten Sie eine Fülle von Informationen über Ihre Besucher. Google Analytics ist in den Details, mit denen Benutzerinteraktionen mit Ihrer Website verfolgt werden, erstaunlich.

Diese Dienste sind so implementiert, dass nur echte Menschen verfolgt werden. Es wäre töricht, zu versuchen, das, was sie bereits so gut machen, erneut zu implementieren, und sie sind so nützlich, dass es fast töricht ist, einen solchen Dienst nicht zu verwenden.

— Blake Walsh
quelle