Programmierung unicode

5

Wirklich gute, schlechte UTF-8-Beispieltestdaten [geschlossen]

Geschlossen. Diese Frage entspricht nicht den Richtlinien für Stapelüberlauf . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Stack - Überlauf. Geschlossen vor 3 Jahren . Verbessere diese Frage Wir haben also das XSS-Spickzettel , um unsere XSS-Filterung …

88 unicode utf-8

12

Ist TCHAR noch relevant?

Ich bin neu in der Windows-Programmierung und nachdem ich das Petzold-Buch gelesen habe, frage ich mich: Ist es immer noch eine gute Praxis, den TCHARTyp und die _T()Funktion zum Deklarieren von Zeichenfolgen zu verwenden, oder sollte ich nur die Zeichenfolgen wchar_tund L""in neuem Code verwenden? Ich werde nur auf Windows …

87 c++ c windows unicode wchar-t

8

Wie kann ich nicht druckbare Unicode-Zeichen in Java ersetzen?

Folgendes ersetzt ASCII-Steuerzeichen (Abkürzung für [\x00-\x1F\x7F]): my_string.replaceAll("\\p{Cntrl}", "?"); Im Folgenden werden alle nicht druckbaren ASCII-Zeichen (Abkürzung für [\p{Graph}\x20]) ersetzt, einschließlich Zeichen mit Akzent: my_string.replaceAll("[^\\p{Print}]", "?"); Beides funktioniert jedoch nicht für Unicode-Zeichenfolgen. Hat jemand eine gute Möglichkeit, nicht druckbare Zeichen aus einer Unicode-Zeichenfolge zu entfernen?

87 java string unicode

6

Verwendung von 'use utf8;' gibt mir 'Breites Zeichen im Druck'

Wenn ich das folgende Perl-Programm ausführe: perl -e 'use utf8; print "鸡\n";' Ich bekomme diese Warnung: Wide character in print at -e line 1. Wenn ich dieses Perl-Programm ausführe: perl -e 'print "鸡\n";' Ich bekomme keine Warnung. Ich dachte, es use utf8sei erforderlich, UTF-8-Zeichen in einem Perl-Skript zu verwenden. Warum …

86 perl unicode utf-8

2

Was ist "falsch" mit C ++ wchar_t und wstrings? Was sind einige Alternativen zu breiten Zeichen?

Ich habe viele Leute in der C ++ - Community gesehen (insbesondere ## c ++ auf freenode), die die Verwendung von wstringsund wchar_tund ihre Verwendung in der Windows-API ablehnen. Was ist genau "falsch" an wchar_tund wstring, und wenn ich die Internationalisierung unterstützen möchte, welche Alternativen gibt es zu breiten Charakteren?

86 c++ winapi unicode internationalization wstring

13

<0xEF, 0xBB, 0xBF> Zeichen, das in Dateien angezeigt wird. Wie entferne ich sie?

Ich komprimiere JavaScript-Dateien und der Kompressor beschwert sich, dass meine Dateien ï»¿Zeichen enthalten. Wie kann ich nach diesen Zeichen suchen und sie entfernen?

85 file unicode utf-8 utf

6

JSON-Zeichencodierung - Wird UTF-8 von Browsern gut unterstützt oder sollte ich numerische Escape-Sequenzen verwenden?

Ich schreibe einen Webservice, der json verwendet, um seine Ressourcen darzustellen, und ich bin ein bisschen festgefahren, wie ich den json am besten codieren kann. Beim Lesen des json rfc ( http://www.ietf.org/rfc/rfc4627.txt ) ist klar, dass die bevorzugte Codierung utf-8 ist. Der RFC beschreibt aber auch einen Mechanismus zum Entkommen …

85 web-services json unicode utf-8

2

Regex: Was ist InCombiningDiacriticalMarks?

Der folgende Code ist sehr bekannt dafür, Zeichen mit Akzent in einfachen Text umzuwandeln: Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", ""); Ich habe meine "handgemachte" Methode durch diese ersetzt, aber ich muss den "Regex" -Teil von replaceAll verstehen 1) Was ist "InCombiningDiacriticalMarks"? 2) Wo ist die Dokumentation davon? (und ähnliche?) Vielen Dank.

85 java regex unicode

1

WebClient.DownloadString führt aufgrund von Codierungsproblemen zu verstümmelten Zeichen, aber der Browser ist in Ordnung

Der folgende Code: var text = (new WebClient()).DownloadString("http://export.arxiv.org/api/query?search_query=au:Freidel_L*&start=0&max_results=20")); führt zu einer Variablen text, die unter anderem die Zeichenfolge enthält "$ Îº $ -Minkowski-Raum, Skalarfeld und das Problem der Lorentz-Invarianz" Wenn ich jedoch diese URL in Firefox besuche, erhalte ich $ κ $ -Minkowski-Raum, Skalarfeld und das Problem der Lorentz-Invarianz das …

84 .net unicode utf-8 webclient

4

Wo ist Pythons "beste ASCII für diese Unicode" -Datenbank?

Ich habe Text, der Unicode-Interpunktion verwendet, wie z. B. linkes doppeltes Anführungszeichen, rechtes einfaches Anführungszeichen für Apostroph usw., und ich benötige ihn in ASCII. Verfügt Python über eine Datenbank dieser Zeichen mit offensichtlichen ASCII-Ersatzzeichen, sodass ich es besser machen kann, als sie alle in "?" ?

84 python unicode ascii

21

So konvertieren Sie eine Zeichenfolge mit Unicode-Codierung in eine Zeichenfolge

Ich habe eine Zeichenfolge mit maskierten Unicode- Zeichen \uXXXXund möchte sie in reguläre Unicode-Buchstaben konvertieren. Zum Beispiel: "\u0048\u0065\u006C\u006C\u006F World" soll werden "Hello World" Ich weiß, dass beim Drucken der ersten Zeichenfolge diese bereits angezeigt wird Hello world. Mein Problem ist, dass ich Dateinamen aus einer Datei lese und dann nach …

84 java unicode encoding

5

MySQL VARCHAR Längen und UTF-8

Wenn ich in MySQL ein neues VARCHAR(32)Feld in einer UTF-8-Tabelle erstelle, bedeutet dies, dass ich 32 Datenbytes in diesem Feld oder 32 Zeichen (Multi-Byte) speichern kann?

83 mysql unicode utf-8 varchar

3

Verwendung der Funktionen unicode () und encode () in Python

Ich habe ein Problem mit der Codierung des Pfades variabel und an die Einfügen von SQLite - Datenbank. Ich habe versucht, es mit der Codierungsfunktion ("utf-8") zu lösen, was nicht geholfen hat. Dann habe ich die Funktion unicode () verwendet, die mir den Typ unicode gibt . print type(path) # …

83 python string sqlite unicode encoding

8

C-Programmierung: Wie programmiere ich für Unicode?

Welche Voraussetzungen sind für eine strikte Unicode-Programmierung erforderlich? Bedeutet dies, dass mein Code charnirgendwo Typen verwenden sollte und dass Funktionen verwendet werden müssen, die mit wint_tund umgehen können wchar_t? Und welche Rolle spielen Multibyte-Zeichenfolgen in diesem Szenario?

82 c unicode utf-8 character-encoding locale

6

Wie viele Zeichen können mit Unicode zugeordnet werden?

Ich bitte um die Anzahl aller möglichen gültigen Kombinationen in Unicode mit Erklärung. Ich weiß, dass ein Zeichen als 1,2,3 oder 4 Bytes codiert werden kann. Ich verstehe auch nicht, warum Fortsetzungsbytes Einschränkungen haben, obwohl das Startbyte dieses Zeichens löscht, wie lange es sein sollte.

82 unicode utf-8 utf

Als «unicode» getaggte Fragen