UTF-8 ist eine Zeichencodierung, die jeden Unicode-Codepunkt unter Verwendung einer Bytefolge von ein bis vier Bytes beschreibt. Es ist abwärtskompatibel mit ASCII und unterstützt weiterhin die Darstellung aller Unicode-Codepunkte.
Ich kenne das nicht standardmäßige% uxxxx-Schema, aber das scheint keine kluge Wahl zu sein, da das Schema vom W3C abgelehnt wurde. Einige interessante Beispiele: Der Herzcharakter. Wenn ich dies in meinen Browser eingebe: http://www.google.com/search?q=♥ Dann kopiere und füge es ein, ich sehe diese URL http://www.google.com/search?q=%E2%99%A5 Das lässt es so aussehen, …
Ich versuche, mit einem sehr großen Datensatz zu arbeiten, der einige nicht standardmäßige Zeichen enthält. Ich muss Unicode gemäß den Jobspezifikationen verwenden, bin aber verblüfft. (Und möglicherweise alles falsch machen.) Ich öffne die CSV mit: 15 ncesReader = csv.reader(open('geocoded_output.csv', 'rb'), delimiter='\t', quotechar='"') Dann versuche ich es zu codieren mit: name=school_name.encode('utf-8'), …
Ich habe einige Probleme beim Versuch, eine Zeichenfolge in UTF-8 zu codieren. Ich habe zahlreiche Dinge ausprobiert, einschließlich der Verwendung von string.encode('utf-8')und unicode(string), aber ich erhalte den Fehler: UnicodeDecodeError: Der Codec 'ascii' kann das Byte 0xef an Position 1 nicht dekodieren: Ordnungszahl nicht im Bereich (128) Das ist meine Zeichenfolge: …
Ich verwende die Javascript- window.atob()Funktion, um eine Base64-codierte Zeichenfolge zu dekodieren (insbesondere den Base64-codierten Inhalt der GitHub-API). Das Problem ist, dass ich ASCII-codierte Zeichen zurück bekomme (wie â¢anstelle von ™). Wie kann ich den eingehenden Base64-codierten Stream richtig verarbeiten, damit er als utf-8 dekodiert wird?
Ich habe zu diesem Thema gegoogelt und mir jede Antwort angesehen, aber ich verstehe sie immer noch nicht. Grundsätzlich muss ich eine UTF-8-Zeichenfolge in ISO-8859-1 konvertieren und dies mit folgendem Code tun: Encoding iso = Encoding.GetEncoding("ISO-8859-1"); Encoding utf8 = Encoding.UTF8; string msg = iso.GetString(utf8.GetBytes(Message)); Meine Quellzeichenfolge ist Message = "ÄäÖöÕõÜü" …
Wenn Sie die Ausgabe eines Befehls in eine Datei umleiten oder in eine andere Datei in PowerShell weiterleiten, lautet die Codierung standardmäßig UTF-16, was nicht sinnvoll ist. Ich möchte es auf UTF-8 ändern. Dies kann von Fall zu Fall erfolgen, indem die >foo.txtSyntax durch ersetzt wird. Es | out-file foo.txt …
Eine der Antworten auf eine Frage, die ich gestern gestellt habe, schlug vor, dass ich sicherstellen sollte, dass meine Datenbank UTF-8-Zeichen korrekt verarbeiten kann. Wie kann ich das mit MySQL machen?
Meine Kategorien müssen mit griechischen Buchstaben benannt werden. Ich benutze ggplot2, und es funktioniert wunderbar mit den Daten. Leider kann ich nicht herausfinden, wie diese griechischen Symbole auf der x-Achse (an den Häkchen) platziert und auch in der Legende angezeigt werden. Gibt es eine Möglichkeit, dies zu tun? UPDATE: Ich …
Ich suche derzeit nach einer einfachen Möglichkeit, Objekte zu serialisieren (in C # 3). Ich habe einige Beispiele gegoogelt und mir etwas ausgedacht wie: MemoryStream memoryStream = new MemoryStream ( ); XmlSerializer xs = new XmlSerializer ( typeof ( MyObject) ); XmlTextWriter xmlTextWriter = new XmlTextWriter ( memoryStream, Encoding.UTF8 ); …
Wenn UTF-8 8 Bit umfasst, bedeutet dies nicht, dass nur maximal 256 verschiedene Zeichen vorhanden sein können? Die ersten 128 Codepunkte sind dieselben wie in ASCII. Aber es heißt, dass UTF-8 bis zu Millionen von Zeichen unterstützen kann? Wie funktioniert das?
Ich versuche text/plain, Zeile für Zeile aus einer Datei über das Internet zu lesen . Der Code, den ich gerade habe, lautet: URL url = new URL("http://kuehldesign.net/test.txt"); BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream())); LinkedList<String> lines = new LinkedList(); String readLine; while ((readLine = in.readLine()) != null) { lines.add(readLine); } for …
Ich teste, wie ein Teil meines Codes mit fehlerhaften Daten umgeht, und ich benötige einige Byteserien, die ungültig sind. UTF-8. Können Sie einige und im Idealfall eine Erklärung veröffentlichen, warum sie schlecht sind / woher Sie sie haben?
Gibt es in PHP eine Funktion, die Unicode-Escape-Sequenzen wie " \u00ed" bis " í" und alle anderen ähnlichen Vorkommen dekodieren kann ? Ich habe hier eine ähnliche Frage gefunden, aber sie scheint nicht zu funktionieren.
Zum Debuggen muss ich rekursiv ein Verzeichnis nach allen Dateien durchsuchen, die mit einer UTF-8-Byte-Ordnungsmarke (BOM) beginnen. Meine aktuelle Lösung ist ein einfaches Shell-Skript: find -type f | while read file do if [ "`head -c 3 -- "$file"`" == $'\xef\xbb\xbf' ] then echo "found BOM in: $file" fi done …
Ich versuche, eine CSV-Datei mit Akzentzeichen mit Python zu lesen (nur französische und / oder spanische Zeichen). Basierend auf der Python 2.5-Dokumentation für den csvreader ( http://docs.python.org/library/csv.html ) habe ich den folgenden Code zum Lesen der CSV-Datei entwickelt, da der csvreader nur ASCII unterstützt. def unicode_csv_reader(unicode_csv_data, dialect=csv.excel, **kwargs): # csv.py …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.