Als «unicode» getaggte Fragen

Unicode ist ein Standard für die Codierung, Darstellung und Handhabung von Text mit der Absicht, alle Zeichen zu unterstützen, die für geschriebenen Text erforderlich sind, einschließlich aller Schriftsysteme, technischen Symbole und Satzzeichen.

17
Der beste Weg, um Textdateien zwischen Zeichensätzen zu konvertieren?
Was ist das schnellste und einfachste Tool oder die schnellste Methode zum Konvertieren von Textdateien zwischen Zeichensätzen? Insbesondere muss ich von UTF-8 nach ISO-8859-15 konvertieren und umgekehrt. Alles ist möglich: Einzeiler in Ihrer bevorzugten Skriptsprache, Befehlszeilentools oder andere Dienstprogramme für Betriebssysteme, Websites usw. Beste Lösungen bisher: Unter Linux / UNIX …

8
Was ist der beste Weg, um Akzente in einer Python-Unicode-Zeichenfolge zu entfernen?
Ich habe eine Unicode-Zeichenfolge in Python und möchte alle Akzente (diakritische Zeichen) entfernen. Ich habe im Web eine elegante Möglichkeit gefunden, dies in Java zu tun: Konvertieren Sie die Unicode-Zeichenfolge in ihre lange normalisierte Form (mit einem separaten Zeichen für Buchstaben und Diakritika). Entfernen Sie alle Zeichen, deren Unicode-Typ "diakritisch" …



12
UTF-8, UTF-16 und UTF-32
Was sind die Unterschiede zwischen UTF-8, UTF-16 und UTF-32? Ich verstehe, dass sie alle Unicode speichern und dass jedes eine andere Anzahl von Bytes verwendet, um ein Zeichen darzustellen. Gibt es einen Vorteil, wenn man sich für einen entscheidet?
487 unicode  utf-8  utf-16  utf  utf-32 

12
Speichern von utf-8-Texten in json.dumps als UTF8, nicht als Escape-Sequenz
Beispielcode: >>> import json >>> json_string = json.dumps("ברי צקלה") >>> print json_string "\u05d1\u05e8\u05d9 \u05e6\u05e7\u05dc\u05d4" Das Problem: Es ist nicht für Menschen lesbar. Meine (intelligenten) Benutzer möchten Textdateien mit JSON-Dumps überprüfen oder sogar bearbeiten (und ich möchte lieber kein XML verwenden). Gibt es eine Möglichkeit, Objekte in UTF-8-JSON-Zeichenfolgen (anstelle von \uXXXX) …
474 python  json  unicode  utf-8  escaping 

30
Der beste Weg, um eine Zeichenfolge umzukehren
Ich musste gerade eine String-Umkehrfunktion in C # 2.0 schreiben (dh LINQ nicht verfügbar) und kam auf Folgendes: public string Reverse(string text) { char[] cArray = text.ToCharArray(); string reverse = String.Empty; for (int i = cArray.Length - 1; i > -1; i--) { reverse += cArray[i]; } return reverse; } …

17
UnicodeDecodeError beim Lesen einer CSV-Datei in Pandas mit Python
Ich führe ein Programm aus, das 30.000 ähnliche Dateien verarbeitet. Eine zufällige Anzahl von ihnen stoppt und erzeugt diesen Fehler ... File "C:\Importer\src\dfman\importer.py", line 26, in import_chr data = pd.read_csv(filepath, names=fields) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 400, in parser_f return _read(filepath_or_buffer, kwds) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 205, in _read return parser.read() File "C:\Python33\lib\site-packages\pandas\io\parsers.py", …


9
Was ist Unicode, UTF-8, UTF-16?
Was ist die Basis für Unicode und warum wird UTF-8 oder UTF-16 benötigt? Ich habe dies bei Google recherchiert und auch hier gesucht, aber es ist mir nicht klar. In VSS wird beim Durchführen eines Dateivergleichs manchmal die Meldung angezeigt, dass die beiden Dateien unterschiedliche UTFs haben. Warum sollte das …

5
Warum ist 2+ 40 gleich 42?
Ich war verblüfft, als mir ein Kollege diese Zeile der JavaScript-Warnung 42 zeigte. alert(2+ 40); Führen Sie das Code-Snippet ausHide resultsErweitern Sie das Snippet Es stellt sich schnell heraus, dass das, was wie ein Minuszeichen aussieht, tatsächlich ein arkanes Unicode-Zeichen mit deutlich unterschiedlicher Semantik ist. Daher habe ich mich gefragt, …

11
Wie greife ich nach allen Nicht-ASCII-Zeichen?
Ich habe mehrere sehr große XML-Dateien und versuche, die Zeilen zu finden, die Nicht-ASCII-Zeichen enthalten. Ich habe folgendes versucht: grep -e "[\x{00FF}-\x{FFFF}]" file.xml Dies gibt jedoch jede Zeile in der Datei zurück, unabhängig davon, ob die Zeile ein Zeichen im angegebenen Bereich enthält. Habe ich die falsche Syntax oder mache …
359 regex  unix  unicode  grep 


6
So ermitteln Sie die Länge eines Strings in R.
Wie finde ich die Länge einer Zeichenfolge (Anzahl der Zeichen in einer Zeichenfolge), ohne sie in R aufzuteilen? Ich weiß, wie man die Länge einer Liste findet, aber nicht einer Zeichenfolge. Und was ist mit Unicode-Strings? Wie finde ich die Länge (in Bytes) und die Anzahl der Zeichen (Runen, Symbole) …

14
Unicode (UTF-8) Lesen und Schreiben in Dateien in Python
Ich habe einige Gehirnfehler beim Verstehen des Lesens und Schreibens von Text in eine Datei (Python 2.4). # The string, which has an a-acute in it. ss = u'Capit\xe1n' ss8 = ss.encode('utf8') repr(ss), repr(ss8) ("u'Capit \ xe1n", "Capit \ xc3 \ xa1n") print ss, ss8 print >> open('f1','w'), ss8 >>> …
328 python  unicode  utf-8  io 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.