Unicode ist ein Standard für die Codierung, Darstellung und Handhabung von Text mit der Absicht, alle Zeichen zu unterstützen, die für geschriebenen Text erforderlich sind, einschließlich aller Schriftsysteme, technischen Symbole und Satzzeichen.
Was ist das schnellste und einfachste Tool oder die schnellste Methode zum Konvertieren von Textdateien zwischen Zeichensätzen? Insbesondere muss ich von UTF-8 nach ISO-8859-15 konvertieren und umgekehrt. Alles ist möglich: Einzeiler in Ihrer bevorzugten Skriptsprache, Befehlszeilentools oder andere Dienstprogramme für Betriebssysteme, Websites usw. Beste Lösungen bisher: Unter Linux / UNIX …
Ich habe eine Unicode-Zeichenfolge in Python und möchte alle Akzente (diakritische Zeichen) entfernen. Ich habe im Web eine elegante Möglichkeit gefunden, dies in Java zu tun: Konvertieren Sie die Unicode-Zeichenfolge in ihre lange normalisierte Form (mit einem separaten Zeichen für Buchstaben und Diakritika). Entfernen Sie alle Zeichen, deren Unicode-Typ "diakritisch" …
Was sind die Unterschiede zwischen UTF-8, UTF-16 und UTF-32? Ich verstehe, dass sie alle Unicode speichern und dass jedes eine andere Anzahl von Bytes verwendet, um ein Zeichen darzustellen. Gibt es einen Vorteil, wenn man sich für einen entscheidet?
Beispielcode: >>> import json >>> json_string = json.dumps("ברי צקלה") >>> print json_string "\u05d1\u05e8\u05d9 \u05e6\u05e7\u05dc\u05d4" Das Problem: Es ist nicht für Menschen lesbar. Meine (intelligenten) Benutzer möchten Textdateien mit JSON-Dumps überprüfen oder sogar bearbeiten (und ich möchte lieber kein XML verwenden). Gibt es eine Möglichkeit, Objekte in UTF-8-JSON-Zeichenfolgen (anstelle von \uXXXX) …
Ich musste gerade eine String-Umkehrfunktion in C # 2.0 schreiben (dh LINQ nicht verfügbar) und kam auf Folgendes: public string Reverse(string text) { char[] cArray = text.ToCharArray(); string reverse = String.Empty; for (int i = cArray.Length - 1; i > -1; i--) { reverse += cArray[i]; } return reverse; } …
Ich führe ein Programm aus, das 30.000 ähnliche Dateien verarbeitet. Eine zufällige Anzahl von ihnen stoppt und erzeugt diesen Fehler ... File "C:\Importer\src\dfman\importer.py", line 26, in import_chr data = pd.read_csv(filepath, names=fields) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 400, in parser_f return _read(filepath_or_buffer, kwds) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 205, in _read return parser.read() File "C:\Python33\lib\site-packages\pandas\io\parsers.py", …
Was ist der genaue Unterschied zwischen Unicode und ASCII? ASCII hat insgesamt 128 Zeichen (256 im erweiterten Satz). Gibt es eine Größenangabe für Unicode-Zeichen?
Was ist die Basis für Unicode und warum wird UTF-8 oder UTF-16 benötigt? Ich habe dies bei Google recherchiert und auch hier gesucht, aber es ist mir nicht klar. In VSS wird beim Durchführen eines Dateivergleichs manchmal die Meldung angezeigt, dass die beiden Dateien unterschiedliche UTFs haben. Warum sollte das …
Ich war verblüfft, als mir ein Kollege diese Zeile der JavaScript-Warnung 42 zeigte. alert(2+ 40); Führen Sie das Code-Snippet ausHide resultsErweitern Sie das Snippet Es stellt sich schnell heraus, dass das, was wie ein Minuszeichen aussieht, tatsächlich ein arkanes Unicode-Zeichen mit deutlich unterschiedlicher Semantik ist. Daher habe ich mich gefragt, …
Ich habe mehrere sehr große XML-Dateien und versuche, die Zeilen zu finden, die Nicht-ASCII-Zeichen enthalten. Ich habe folgendes versucht: grep -e "[\x{00FF}-\x{FFFF}]" file.xml Dies gibt jedoch jede Zeile in der Datei zurück, unabhängig davon, ob die Zeile ein Zeichen im angegebenen Bereich enthält. Habe ich die falsche Syntax oder mache …
Wie finde ich die Länge einer Zeichenfolge (Anzahl der Zeichen in einer Zeichenfolge), ohne sie in R aufzuteilen? Ich weiß, wie man die Länge einer Liste findet, aber nicht einer Zeichenfolge. Und was ist mit Unicode-Strings? Wie finde ich die Länge (in Bytes) und die Anzahl der Zeichen (Runen, Symbole) …
Ich habe einige Gehirnfehler beim Verstehen des Lesens und Schreibens von Text in eine Datei (Python 2.4). # The string, which has an a-acute in it. ss = u'Capit\xe1n' ss8 = ss.encode('utf8') repr(ss), repr(ss8) ("u'Capit \ xe1n", "Capit \ xc3 \ xa1n") print ss, ss8 print >> open('f1','w'), ss8 >>> …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.