Ich habe festgestellt, dass die Google Webmaster-Tools viele blockierte Ressourcen auf meiner Website melden. Im Moment sind alle "blockierten Ressourcen" .css, .js und Bilder (.jpg, .png), die ich von Cloudfront CDN aus bediene.
Ich habe viel Zeit damit verbracht, zu testen und herauszufinden, warum Google diese Dateien nicht crawlt und einen "Ressourcenblock" -Status meldet.
Derzeit stelle ich diese Dateien von verschiedenen Hostnamen wie cdn1.example.com, cdn2.example.com,…
cdn1, cdn2 und die anderen sind CNAME für den Cloudfront-Distributionsnamen.
Test: Ich habe versucht, die Cloudfront-Distribution (kein CNAME) direkt zu verwenden, aber das Problem besteht weiterhin.
Derzeit sieht meine robots.txt folgendermaßen aus:
# Google AdSense
User-agent: Mediapartners-Google
Disallow:
#Google images
User-agent: Googlebot-Image
Disallow: /
User-agent: *
Disallow: /homepage
Disallow: /index.php*
Disallow: /uncategorized*
Disallow: /tag/*
Disallow: *feed
Disallow: */page/*
Disallow: *author*
Disallow: *archive*
Disallow: */category*
Disallow: *tag=*
Disallow: /test*
Allow: /
Und Beispiele für Dateien, die auf einer Beispielseite blockiert sind:
cdn1.example.com/wp-content/plugins/wp-forecast/wp-forecast-default.css
cdn9.example.com/wp-content/plugins/bwp-minify/min/?f=wp-content/themes/magazine/css/font-awesome.min.css,wp-content/themes/magazine/css/responsive .css
cdn5.example.com/wp-content/themes/magazine/images/nobg.png
cdn6.example.com/wp-content/plugins/floating-social-bar/images/fsb-sprite.png
cdn5.example.com/wp-content/uploads/2013/11/Design-Hotel-3-80x80.jpg
cdn5.example.com/wp-content/uploads/2013/11/Marta-Hotel-7-270x225.jpg
Ich habe sogar versucht, alles in robots.txt zuzulassen, aber ich habe immer das gleiche Ergebnis.
Ich habe mir auch die CloudFront-Einstellungen in Amazon genau angesehen und festgestellt, dass nichts damit zu tun hat (ich verwende die Option "Viewer-Zugriff einschränken (signierte URLs oder signierte Cookies verwenden) nicht und habe sie nie verwendet").
Im Moment habe ich viel Zeit damit verbracht, mich damit zu beschäftigen und habe keine Ideen mehr.
Kann sich jemand einen Grund vorstellen, warum Googlebot daran gehindert wird, in Amazon CloudFront gehostete Dateien zu crawlen?
*
am Ende der URL "Präfix" nie ein Präfix erforderlich ist . /test*
ist das gleiche wie /test
.