Wie hat Google es geschafft, meine 403 Seiten zu crawlen?


10

Ich hatte ein paar private Dateien in einem Verzeichnis in meinem Schulordner. Sie können sehen, dass die Dateien vorhanden sind, indem Sie zu myschool.edu/myusername/myfolder gehen. Wenn Sie jedoch versuchen, über myschool.edu/myusername/myfolder/myfile.html auf die Dateien selbst zuzugreifen, wird ein 403-Fehler zurückgegeben.

Und doch hat Google es irgendwie geschafft, den Inhalt dieser privaten Dateien abzurufen und in seinem Cache zu speichern! Wie ist das möglich? [Ich habe diese Dateien inzwischen entfernt, daher bin ich nur gespannt, wie Google dies geschafft hat.]


2
Dies gehört auf Webmasters
RobertPitt

Antworten:


5

Der wahrscheinlichste Grund ist, dass die Seiten keinen 403-Header zurückgeben.

Sie können dies mithilfe der Webentwickler-Symbolleiste in Firefox oder Chrome überprüfen. Das Tool befindet sich unter "Information" -> "Antwortheader anzeigen".

Außerdem erstelle ich meine Fehlerseiten wie folgt:

  1. Ich erstelle eine Dummy-Fehlerseite. Sagen wir 403.php .
  2. Ich erstelle eine aktuelle Fehlerseite. Zum Beispiel error403.php .
  3. Auf der Dummy-Fehlerseite habe ich den folgenden Code eingefügt: <?php header("Location: /error403.php",TRUE,301); ?>
  4. In meinen .htaccess habe ich Folgendes eingefügt:

    Options -Indexes

    ErrorDocument 403 /403.php

Dies fügt alle Weiterleitungen auf die richtige Weise hinzu und stellt sicher, dass ich etwas Saft von meinen Fehlerseiten bekomme.

Dies kann auf äußerst coole Weise erweitert werden, wenn Ihre Website über eine Suchmaschine verfügt, die GET-Anforderungen verwendet.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.