Aufgrund der Kommentare, die ich erhalten habe, habe ich dies etwas weiter untersucht. Es scheint, dass derzeit die beste Vorgehensweise darin besteht, auf die Verwendung von HTML-Entitäten zu verzichten und stattdessen das eigentliche UTF-8-Zeichen zu verwenden . Die aufgeführten Gründe sind folgende:
- UTF-8-Codierungen sind für diejenigen, die verstehen, was das Zeichen bedeutet und wie man es eingibt, einfacher zu lesen und zu bearbeiten.
- UTF-8-Codierungen sind für diejenigen, die sie nicht verstehen, genauso unverständlich wie HTML-Entitätscodierungen, haben jedoch den Vorteil, dass sie als Sonderzeichen gerendert werden und nicht als schwer verständliche Dezimal- oder Hex-Codierungen.
Solange die Codierung Ihrer Seite ordnungsgemäß auf UTF-8 eingestellt ist, sollten Sie das tatsächliche Zeichen anstelle einer HTML-Entität verwenden. Ich habe mehrere Dokumente zu diesem Thema gelesen, aber die hilfreichsten waren:
Aus dem Artikel UTF-8: Das Geheimnis der Zeichenkodierung :
Wikipedia ist eine großartige Fallstudie für eine Anwendung, die ursprünglich ISO-8859-1 verwendete, aber auf UTF-8 umstellte, als es viel zu umständlich wurde, Fremdsprachen zu unterstützen. Bots gehen nun tatsächlich Artikel durch und konvertieren Zeichenentitäten aus Gründen der Benutzerfreundlichkeit und Suchbarkeit in ihre entsprechenden realen Zeichen .
Dieser Artikel enthält auch ein schönes Beispiel für die chinesische Codierung. Hier ist das abgekürzte Beispiel aus Gründen der Faulheit:
UTF-8:
這兩個字是甚麼意思
HTML-Entitäten :
這兩個字是甚麼意思
Die UTF-8- und HTML-Entitätscodierungen sind für mich beide bedeutungslos, aber zumindest die UTF-8-Codierung ist als Fremdsprache erkennbar und wird in einem Bearbeitungsfeld ordnungsgemäß gerendert. In dem Artikel wird Folgendes über die HTML-Entitäts-codierte Version gesagt:
Sehr unpraktisch für diejenigen von uns, die tatsächlich wissen, was Charakterentitäten sind, völlig unverständlich für arme Benutzer, die dies nicht tun! Sogar die etwas benutzerfreundlicheren, "verständlicheren" Charaktereinheiten wie & theta; Benutzer, die nicht daran interessiert sind, HTML zu lernen, kratzen sich am Kopf. Wenn sie andererseits θ in einem Bearbeitungsfeld sehen, wissen sie, dass es sich um ein Sonderzeichen handelt, und behandeln es entsprechend, auch wenn sie nicht wissen, wie sie dieses Zeichen selbst schreiben sollen.
Wie andere angemerkt haben, müssen Sie weiterhin HTML-Entitäten für reservierte XML-Zeichen verwenden (kaufmännisches Und, kleiner als, größer als).