Wie kann ich Google dazu bringen, meine PDF-Dokumente zu indizieren?


15

Wir haben Probleme damit, dass Google die PDF-Dateien auf unserer Website indiziert. Es gibt ungefähr 50 PDF-Dateien mit einer Größe von 20 KB bis etwas weniger als zwei Megabyte. Sie sind nicht geschützt, können anonym gelesen werden und innerhalb von PDF Reader können Sie das Dokument durchsuchen.

Sie sind in der SiteMap.xml aufgeführt. Ich kann mir sogar die IIS-Protokolle ansehen und sehen, wie Googlebot die PDF-Dateien liest, aber bis auf fünf sind sie nie in den Suchergebnissen enthalten.

Wenn ich ein filetye: pdf mache, tauchten nur fünf PDFs auf. Wenn ich nach Text suche, von dem ich weiß, dass er sich in einer PDF-Datei befindet, werden die PDF-Dateien nie angezeigt (mit Ausnahme der fünf indizierten).

Hat jemand eine Ahnung, warum das über 45-jährige PDF-Dokument nicht in den Index aufgenommen wird, obwohl es sich in der Sitemap befindet und von Googlebot gelesen wird?


Geben Sie den Inhaltstyp für Google an?
Chris Ballance

Antworten:


4

befinden sich alle pdfs am selben ort? Ich hatte einmal das Problem, dass sich einer meiner PDF-Speicherorte in einem Ordner befand, der von der robots.txt ausgeschlossen wurde. Senden Sie Ihre Sitemap direkt an die Google-Webmaster-Tool-Site, und Sie erhalten möglicherweise wertvolle Informationen darüber, warum die PDFs nicht angezeigt werden. In meinem Fall sagte mir Google: "Hey, diese 54 PDF-Dokumente befinden sich in Ihrer Sitemap, aber aufgrund der Einschränkungen von robots.txt können wir sie nicht indizieren." das war also ziemlich hilfreich. Aber beachten Sie, was der Kommentator sagt, es kann eine Weile dauern, bis diese Informationen angezeigt werden.

Google Webmaster-Tools: https://www.google.com/webmasters/tools


Ich möchte nur hinzufügen, dass die Google Webmaster-Tools nicht alle Informationen in Echtzeit bereitstellen. Es ist immer noch eine wichtige Ressource.
Liam

Nein, die PDFs befinden sich an verschiedenen Stellen auf der Website. Ich habe es überprüft und keiner von ihnen wird von robots.txt blockiert. Ich habe die Webmaster-Tools verwendet und Sitemaps gesendet und werde dies auch weiterhin tun. Vielen Dank für Ihr Feedback. Jim

1

Es kann eine ziemliche Verzögerung zwischen dem ersten Lesen Ihres Inhalts durch Google und dem Anzeigen im Index geben. Wir haben kürzlich eine Website neu gestartet und beim Start Sitemaps an Google gesendet. Es dauerte ca. 3 Wochen, bis die neuen Seiten in den Suchergebnissen angezeigt wurden.

Wie lange ist es her, dass Sie diese PDFs über Ihre Sitemap eingereicht haben?

(mit Ausnahme der fünf, die indiziert sind)

Es hört sich so an, als würden Ihre PDFs indiziert, aber es dauert einige Zeit. Unter der Annahme, dass es keinen Unterschied in der Art und Weise gibt, wie die nicht indizierten PDF-Dateien erstellt wurden, würde ich vermuten, dass die Aktualisierung des Index nur eine Weile dauert.

Ein nützliches Tool, für das ich die Anmeldung empfehlen würde, ist Google Webmaster. Es zeigt Ihnen die Crawling-Rate, Probleme mit Ihrer Website, Sitemaps und die Indizierung innerhalb eines Tages, nachdem der Googlebot Ihre Website erreicht hat. Dadurch sparen Sie möglicherweise etwas Zeit beim Durchsuchen Ihrer IIS-Protokolle.


Es ist ungefähr vier Wochen her, seit wir unsere Sitemap zum ersten Mal eingereicht haben. Mir ist gerade aufgefallen, dass sie letzte Nacht vier weitere indexiert haben; Vielleicht muss ich einfach warten :)

Wenn Sie die Site neu gestartet haben und es 3 Wochen gedauert hat, bis die neuen Seiten in den Suchergebnissen angezeigt wurden, bedeutete dies nicht, dass die Suche 3 Wochen lang Ergebnisse zu Seiten zurückgab, die auf Ihrer Site nicht mehr vorhanden waren? Hat dies nicht zu einer Menge von "Seite nicht gefunden" -Bedingungen geführt?

In unserer Situation ging der Relaunch mit dem Start einer neuen Sektion einher, alte Links funktionierten immer noch - die 3 Wochen waren die Zeit, in der die neue Sektion auftauchte. Die zufällige Wartezeit kann ein bisschen frustrierend sein!
ConroyP

0

Werden Ihre PDF-Dateien mit OCR gescannt, sodass der Text ausgewählt und durchsucht werden kann? Oder werden die PDF-Dateien ohne OCR gescannt. In diesem Fall wird der Text als großes Bild gespeichert. Wenn das PDF alle Bilder enthält, kann Google es (noch) nicht indizieren. Oder hat Google Ihre Seiten inzwischen gefunden?


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.