Gültiger Inhaltstyp für XML-, HTML- und XHTML-Dokumente


123

Was sind die richtigen Inhaltstypen für XML-, HTML- und XHTML-Dokumente?

Ich muss einen einfachen Crawler schreiben, der nur diese Art von Dateien abruft.

Heutzutage kann http://example.net/index.html aufgrund von mod_rewrite beispielsweise eine JPEG-Datei bereitstellen. Daher muss ich den Inhaltstyp aus dem Antwortheader überprüfen und ihn mit einer Liste zulässiger Inhaltstypen vergleichen.

Woher bekomme ich eine solche Liste?


Antworten:


206

HTML : text/html, Punkt.

XHTML: application/xhtml+xmloder nur, wenn die Richtlinien zur HTML-Kompatibilität befolgt werden text/html. Siehe Hinweis zu W3- Medientypen .

XML : text/xml, application/xml( RFC 2376 ).

Es gibt auch viele andere Medientypen, die auf XML basieren, zum Beispiel application/rss+xmloder image/svg+xml. Es ist sicher, dass jede nicht erkannte, aber registrierte Endung auf +xmlXML basiert. In der IANA-Liste finden Sie registrierte Medientypen, die auf enden+xml .

(Bei nicht registrierten x-Typen sind alle Wetten ungültig, aber Sie würden hoffen, +xmldass sie respektiert werden.)


32
Zu Unterschieden zwischen text/xmlund application/xmlsiehe hier stackoverflow.com/questions/4832357/…
sanmai

Gleiches gilt für Fragmente , siehe w3.org/TR/xml-fragment oder diese andere Frage .
Peter Krauss
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.