Sollte ich das Crawlen von HTTP nach dem Wechsel zu HTTPS nicht zulassen?


7

Ich migriere meine gut indizierte Website nur von HTTP auf HTTPS.

Geplante Schritte:

  1. Alle HTML-Seiten können jetzt HTTPS sein
  2. Alle HTTP-Seiten werden mit derselben URL zu HTTPS umgeleitet
  3. Alle Sitemaps haben HTTPS-URLs
  4. Alle Links auf HTML-Seiten sind HTTPS

Fehler 1:

Derzeit robots.txtauf HTTPS-Ebene nicht zulassen, da der Crawler keine HTTPS-Seiten crawlen soll.

Was sollte unser Ansatz jetzt sein: Es ist offensichtlich, dass jetzt https für alle Links zulässig sind.

Aber was ist mit dem Zulassen / Nicht-Zulassen von HTTP (als ob HTTP nicht gecrawlt worden wäre, wie würde es wissen, dass nichts Neues passiert ist, nur HTTP wurde auf HTTPS migriert)? 301 zeigt dies an, aber das passiert nur, wenn der Crawler dieselbe Seite mit öffnet HTTP.

Ausgabe 2:

Wenn ich in der Sitemap alle HTTPS-Links hinzufüge, komme ich zu derselben Frage wie oben. Crawler beginnt mit dem Crawlen von https-Links und indiziert diese. Wir möchten jedoch, dass es weiß, dass es sich um dieselbe HTTP-Version handelt, und Rankings weitergibt

Idealerweise sollten wir für einige Zeitspanne, bis alle unsere Links mit HTTPS indiziert sind, sowohl HTTP als auch HTTPS in Sitemaps haben?

Nach heutigem Kenntnisstand ist der folgende Plan:

Wenn Google aufhört, http zu crawlen, werden keine Rankings bestanden. Daher plane ich, sowohl http als auch https zuzulassen, da es sich um Roboter handelt.

Aber ich weiß nicht, wie sie es wie auf unserem Webserver crawlen werden. Wir leiten alle http-Links zum https-Gegenstück um. Selbst wenn das Stammverzeichnis meiner Website http://www.example.com gecrawlt wird, wird es schließlich zu https://www.example.com weitergeleitet, wo es alle https-Links findet und dem folgt.

Möglicherweise wird auch versucht, die bereits indizierten Links (alle http-Links) zu crawlen, und es wird festgestellt, dass sie umgeleitet werden. Dies hängt jedoch vom Crawlerverhalten und der Häufigkeit ab. In der Zeitspanne zwischen dem Verständnis des Crawlers von 301 und der ebenfalls gecrawlten https-Version führt dies zu Problemen mit doppelten Inhalten und wirkt sich daher auf unsere Platzierungen aus.


3
Schnelle Antwort? Erlaube das Crawlen von HTTP, damit G weiß, dass es eine Änderung gibt. In der Sitemap sollten nur HTTPS-Seiten aufgelistet sein. Es wird eine Weile dauern, bis G alle Ihre Seiten abruft, sowohl HTTP als auch HTTPS. Während dieser Zeit kommt es zu einer Unterbrechung der Suche, während sich dies alles bessert.
Closetnoc

@closetnoc: Ich stimme Ihrem Vorschlag zu, bis jemand anderes eine bessere Antwort liefert.
Abhinsit

Warum sollte der Crawler keine HTTPS-Seiten crawlen? Wenn Links zu https umgeleitet werden und von robots.txt blockiert werden, wird dies zu sehr schaden.
Goyllo

Ich blockiere nicht https durch robots.txt
abhinsit

Antworten:


5

Wenn Sie bereits 301 HTTP-Verkehr zu HTTPS umleiten, haben Sie den größten Schritt bereits ausgeführt. Alle Links zu HTTP-Seiten werden auf die entsprechende HTTPS-Seite umgeleitet, und Suchmaschinen folgen diesen wie echte Benutzer. Solange sich Ihre Sitemap auch auf die HTTPS-Version bezieht, sollte es Ihnen gut gehen.

Was noch mehr Kleinigkeiten betrifft, würde ich auch empfehlen, Folgendes zu überprüfen:

Seitenverzeichnis

Sie haben erwähnt, dass dies aktualisiert wird, aber einige Leute verwenden Plugins, um dies regelmäßig zu regenerieren. Stellen Sie sicher, dass das von Ihnen verwendete Skript HTTPS nicht versehentlich durch einen automatisierten Prozess durch HTTP ersetzt.

Canonicals

Wenn auf Ihrer Website kanonische Links vorhanden sind, stellen Sie sicher, dass diese auf HTTPS verweisen. Wenn Sie ein WordPress-Plugin verwenden, wird die neue "Site-Adresse" möglicherweise nicht automatisch abgerufen. Überprüfen Sie daher Ihre SEO-Plugins speziell. Wenn Sie eine benutzerdefinierte Site haben, überprüfen Sie einfach das von Ihnen angegebene Protokoll.

Robots.txt

Die HTTP-Version von your robots.txtist nicht einmal mehr lesbar, wenn sie zur HTTPS-Version umgeleitet wird. Stellen Sie einfach sicher, dass die Version, die Sie über HTTPS bereitstellen, keine Seiten blockiert, die tatsächlich gecrawlt werden sollen.

Interne Links

Das Verknüpfen mit Seiten innerhalb Ihrer Site sollte jetzt immer HTTPS verwenden. Es mag einfach sein, globale Menüs einzuchecken, aber das Überprüfen von In-Page-Links wird schwieriger. phpMyAdmin hat eine anständige Suchfunktion, um welche zu finden. Wenn Sie also diese Suche haben http://www.example.comund von dort aus aktualisieren. Andere DB-Tools sollten ähnliche Funktionen haben. WordPress verfügt über Plugins, mit denen Sie sogar direkt suchen / ersetzen können.

Externe Links

Sie werden nicht in der Lage sein, alle externen Links zu kontrollieren, die auf Ihre Website gelangen (oh, wie schön das wäre), aber Sie haben wahrscheinlich die Kontrolle über mehr, als Sie denken. Aktualisieren Sie alle Ihre Social-Media-Profile (Facebook / Twitter / usw.), um einen Link zur HTTPS-Version Ihrer Website zu erstellen. Überprüfen Sie auch die Links von E-Mail-Signaturen, um Ihre Basen abzudecken.

HSTS

HTTP Strict Transport Security ist eine Möglichkeit, Browser darüber zu informieren, dass HTTPS nur verwendet werden soll, wenn Sie zu Ihrer Website zurückkehren. Selbst wenn ein Benutzer auf einen HTTP-Link klickt, fordert sein Browser automatisch die HTTPS-Version an, wenn er Ihre HSTS-Richtlinie kennt, ohne auf eine Weiterleitung warten zu müssen. Sie können Ihre Website sogar an eine "vorinstallierte STS-Liste" senden, sodass Browser mit Ihrer Domain vorinstalliert werden und standardmäßig automatisch Ressourcen über HTTPS anfordern. Fügen Sie einen Strict-Transport-Security: max-age=10886400; includeSubDomains; preloadHeader hinzu und senden Sie ihn an https://hstspreload.appspot.com/ oder lesen Sie https://www.owasp.org/index.php/HTTP_Strict_Transport_Security, um weitere Informationen zu erhalten.


2

Fehler 1

Nein, es hat keinen Vorteil, das Crawlen von HTTP zu blockieren, also keinen Grund, dies zu tun. Außerdem, und dies ist ein bisschen spekulativ, kann es den Wertefluss von externen Links stören, die auf Ihre alten HTTP-Versionen verweisen.

Problem 2

Auch dies ist kein Vorteil. Die 301-Weiterleitungen übergeben den Wert an die neuen URLs.


3
Keine Notwendigkeit, sich spekulativ zu fühlen. Wenn die Suchmaschine die 301-Weiterleitung nicht crawlen und sehen kann, kann sie den SEO-Wert nicht an die HTTPS-Version weitergeben.
Stephen Ostermiller

0

Führen Sie einfach eine Schicht durch: http to https. Ich kenne Ihr Geschäftsmodell nicht, aber je nach Autorität Ihrer Website werden Sie in den Google-Rankings eine massive Störung feststellen. Innerhalb von 4 Wochen wird ein Gleichgewicht mit Google hergestellt, sofern Sie die alten Seiten auf die neuen Seiten übertragen haben. Die einfache Antwort lautet: Blockieren Sie keinen Zwischenlink von http.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.