Was sind die richtigen Inhaltstypen für XML-, HTML- und XHTML-Dokumente?
Ich muss einen einfachen Crawler schreiben, der nur diese Art von Dateien abruft.
Heutzutage kann http://example.net/index.html aufgrund von mod_rewrite beispielsweise eine JPEG-Datei bereitstellen. Daher muss ich den Inhaltstyp aus dem Antwortheader überprüfen und ihn mit einer Liste zulässiger Inhaltstypen vergleichen.
Woher bekomme ich eine solche Liste?