Programmierung unicode

17

Der beste Weg, um Textdateien zwischen Zeichensätzen zu konvertieren?

Was ist das schnellste und einfachste Tool oder die schnellste Methode zum Konvertieren von Textdateien zwischen Zeichensätzen? Insbesondere muss ich von UTF-8 nach ISO-8859-15 konvertieren und umgekehrt. Alles ist möglich: Einzeiler in Ihrer bevorzugten Skriptsprache, Befehlszeilentools oder andere Dienstprogramme für Betriebssysteme, Websites usw. Beste Lösungen bisher: Unter Linux / UNIX …

526 text unicode utf-8 character-set

8

Was ist der beste Weg, um Akzente in einer Python-Unicode-Zeichenfolge zu entfernen?

Ich habe eine Unicode-Zeichenfolge in Python und möchte alle Akzente (diakritische Zeichen) entfernen. Ich habe im Web eine elegante Möglichkeit gefunden, dies in Java zu tun: Konvertieren Sie die Unicode-Zeichenfolge in ihre lange normalisierte Form (mit einem separaten Zeichen für Buchstaben und Diakritika). Entfernen Sie alle Zeichen, deren Unicode-Typ "diakritisch" …

507 python python-3.x unicode python-2.x diacritics

9

Konvertieren Sie eine Unicode-Zeichenfolge in eine Zeichenfolge in Python (mit zusätzlichen Symbolen).

Wie konvertiert man eine Unicode-Zeichenfolge (die zusätzliche Zeichen wie £ $ usw. enthält) in eine Python-Zeichenfolge?

504 python string unicode type-conversion

15

Was ist der Unterschied zwischen UTF-8 und Unicode?

Ich habe widersprüchliche Meinungen von Menschen gehört - laut der Wikipedia UTF-8- Seite. Sie sind dasselbe, nicht wahr? Kann jemand klarstellen?

503 unicode encoding utf-8 character-encoding terminology

12

UTF-8, UTF-16 und UTF-32

Was sind die Unterschiede zwischen UTF-8, UTF-16 und UTF-32? Ich verstehe, dass sie alle Unicode speichern und dass jedes eine andere Anzahl von Bytes verwendet, um ein Zeichen darzustellen. Gibt es einen Vorteil, wenn man sich für einen entscheidet?

487 unicode utf-8 utf-16 utf utf-32

12

Speichern von utf-8-Texten in json.dumps als UTF8, nicht als Escape-Sequenz

Beispielcode: >>> import json >>> json_string = json.dumps("ברי צקלה") >>> print json_string "\u05d1\u05e8\u05d9 \u05e6\u05e7\u05dc\u05d4" Das Problem: Es ist nicht für Menschen lesbar. Meine (intelligenten) Benutzer möchten Textdateien mit JSON-Dumps überprüfen oder sogar bearbeiten (und ich möchte lieber kein XML verwenden). Gibt es eine Möglichkeit, Objekte in UTF-8-JSON-Zeichenfolgen (anstelle von \uXXXX) …

474 python json unicode utf-8 escaping

30

Der beste Weg, um eine Zeichenfolge umzukehren

Ich musste gerade eine String-Umkehrfunktion in C # 2.0 schreiben (dh LINQ nicht verfügbar) und kam auf Folgendes: public string Reverse(string text) { char[] cArray = text.ToCharArray(); string reverse = String.Empty; for (int i = cArray.Length - 1; i > -1; i--) { reverse += cArray[i]; } return reverse; } …

440 c# .net performance algorithm unicode

17

UnicodeDecodeError beim Lesen einer CSV-Datei in Pandas mit Python

Ich führe ein Programm aus, das 30.000 ähnliche Dateien verarbeitet. Eine zufällige Anzahl von ihnen stoppt und erzeugt diesen Fehler ... File "C:\Importer\src\dfman\importer.py", line 26, in import_chr data = pd.read_csv(filepath, names=fields) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 400, in parser_f return _read(filepath_or_buffer, kwds) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 205, in _read return parser.read() File "C:\Python33\lib\site-packages\pandas\io\parsers.py", …

411 python pandas csv dataframe unicode

9

Was ist der Unterschied zwischen ASCII und Unicode?

Was ist der genaue Unterschied zwischen Unicode und ASCII? ASCII hat insgesamt 128 Zeichen (256 im erweiterten Satz). Gibt es eine Größenangabe für Unicode-Zeichen?

407 unicode ascii

9

Was ist Unicode, UTF-8, UTF-16?

Was ist die Basis für Unicode und warum wird UTF-8 oder UTF-16 benötigt? Ich habe dies bei Google recherchiert und auch hier gesucht, aber es ist mir nicht klar. In VSS wird beim Durchführen eines Dateivergleichs manchmal die Meldung angezeigt, dass die beiden Dateien unterschiedliche UTFs haben. Warum sollte das …

395 unicode encoding utf-8 utf-16

5

Warum ist 2+ 40 gleich 42?

Ich war verblüfft, als mir ein Kollege diese Zeile der JavaScript-Warnung 42 zeigte. alert(2+ 40); Führen Sie das Code-Snippet ausHide resultsErweitern Sie das Snippet Es stellt sich schnell heraus, dass das, was wie ein Minuszeichen aussieht, tatsächlich ein arkanes Unicode-Zeichen mit deutlich unterschiedlicher Semantik ist. Daher habe ich mich gefragt, …

360 javascript unicode

11

Wie greife ich nach allen Nicht-ASCII-Zeichen?

Ich habe mehrere sehr große XML-Dateien und versuche, die Zeilen zu finden, die Nicht-ASCII-Zeichen enthalten. Ich habe folgendes versucht: grep -e "[\x{00FF}-\x{FFFF}]" file.xml Dies gibt jedoch jede Zeile in der Datei zurück, unabhängig davon, ob die Zeile ein Zeichen im angegebenen Bereich enthält. Habe ich die falsche Syntax oder mache …

359 regex unix unicode grep

2

Unterschiede im Unicode-, UTF-, ASCII- und ANSI-Format

Was ist der Unterschied zwischen den Unicode, UTF8, UTF7, UTF16, UTF32, ASCII, und ANSICodierungen? Inwiefern sind diese für Programmierer hilfreich?

351 unicode character-encoding ascii ansi utf

6

So ermitteln Sie die Länge eines Strings in R.

Wie finde ich die Länge einer Zeichenfolge (Anzahl der Zeichen in einer Zeichenfolge), ohne sie in R aufzuteilen? Ich weiß, wie man die Länge einer Liste findet, aber nicht einer Zeichenfolge. Und was ist mit Unicode-Strings? Wie finde ich die Länge (in Bytes) und die Anzahl der Zeichen (Runen, Symbole) …

348 r string unicode string-length

14

Unicode (UTF-8) Lesen und Schreiben in Dateien in Python

Ich habe einige Gehirnfehler beim Verstehen des Lesens und Schreibens von Text in eine Datei (Python 2.4). # The string, which has an a-acute in it. ss = u'Capit\xe1n' ss8 = ss.encode('utf8') repr(ss), repr(ss8) ("u'Capit \ xe1n", "Capit \ xc3 \ xa1n") print ss, ss8 print >> open('f1','w'), ss8 >>> …

328 python unicode utf-8 io

Als «unicode» getaggte Fragen