Als «unicode» getaggte Fragen

Unicode ist ein Standard für die Codierung, Darstellung und Handhabung von Text mit der Absicht, alle Zeichen zu unterstützen, die für geschriebenen Text erforderlich sind, einschließlich aller Schriftsysteme, technischen Symbole und Satzzeichen.

5
Wirklich gute, schlechte UTF-8-Beispieltestdaten [geschlossen]
Geschlossen. Diese Frage entspricht nicht den Richtlinien für Stapelüberlauf . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Stack - Überlauf. Geschlossen vor 3 Jahren . Verbessere diese Frage Wir haben also das XSS-Spickzettel , um unsere XSS-Filterung …
88 unicode  utf-8 

12
Ist TCHAR noch relevant?
Ich bin neu in der Windows-Programmierung und nachdem ich das Petzold-Buch gelesen habe, frage ich mich: Ist es immer noch eine gute Praxis, den TCHARTyp und die _T()Funktion zum Deklarieren von Zeichenfolgen zu verwenden, oder sollte ich nur die Zeichenfolgen wchar_tund L""in neuem Code verwenden? Ich werde nur auf Windows …
87 c++  c  windows  unicode  wchar-t 

8
Wie kann ich nicht druckbare Unicode-Zeichen in Java ersetzen?
Folgendes ersetzt ASCII-Steuerzeichen (Abkürzung für [\x00-\x1F\x7F]): my_string.replaceAll("\\p{Cntrl}", "?"); Im Folgenden werden alle nicht druckbaren ASCII-Zeichen (Abkürzung für [\p{Graph}\x20]) ersetzt, einschließlich Zeichen mit Akzent: my_string.replaceAll("[^\\p{Print}]", "?"); Beides funktioniert jedoch nicht für Unicode-Zeichenfolgen. Hat jemand eine gute Möglichkeit, nicht druckbare Zeichen aus einer Unicode-Zeichenfolge zu entfernen?
87 java  string  unicode 

6
Verwendung von 'use utf8;' gibt mir 'Breites Zeichen im Druck'
Wenn ich das folgende Perl-Programm ausführe: perl -e 'use utf8; print "鸡\n";' Ich bekomme diese Warnung: Wide character in print at -e line 1. Wenn ich dieses Perl-Programm ausführe: perl -e 'print "鸡\n";' Ich bekomme keine Warnung. Ich dachte, es use utf8sei erforderlich, UTF-8-Zeichen in einem Perl-Skript zu verwenden. Warum …
86 perl  unicode  utf-8 

2
Was ist "falsch" mit C ++ wchar_t und wstrings? Was sind einige Alternativen zu breiten Zeichen?
Ich habe viele Leute in der C ++ - Community gesehen (insbesondere ## c ++ auf freenode), die die Verwendung von wstringsund wchar_tund ihre Verwendung in der Windows-API ablehnen. Was ist genau "falsch" an wchar_tund wstring, und wenn ich die Internationalisierung unterstützen möchte, welche Alternativen gibt es zu breiten Charakteren?


6
JSON-Zeichencodierung - Wird UTF-8 von Browsern gut unterstützt oder sollte ich numerische Escape-Sequenzen verwenden?
Ich schreibe einen Webservice, der json verwendet, um seine Ressourcen darzustellen, und ich bin ein bisschen festgefahren, wie ich den json am besten codieren kann. Beim Lesen des json rfc ( http://www.ietf.org/rfc/rfc4627.txt ) ist klar, dass die bevorzugte Codierung utf-8 ist. Der RFC beschreibt aber auch einen Mechanismus zum Entkommen …

2
Regex: Was ist InCombiningDiacriticalMarks?
Der folgende Code ist sehr bekannt dafür, Zeichen mit Akzent in einfachen Text umzuwandeln: Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", ""); Ich habe meine "handgemachte" Methode durch diese ersetzt, aber ich muss den "Regex" -Teil von replaceAll verstehen 1) Was ist "InCombiningDiacriticalMarks"? 2) Wo ist die Dokumentation davon? (und ähnliche?) Vielen Dank.
85 java  regex  unicode 

1
WebClient.DownloadString führt aufgrund von Codierungsproblemen zu verstümmelten Zeichen, aber der Browser ist in Ordnung
Der folgende Code: var text = (new WebClient()).DownloadString("http://export.arxiv.org/api/query?search_query=au:Freidel_L*&start=0&max_results=20")); führt zu einer Variablen text, die unter anderem die Zeichenfolge enthält "$ κ $ -Minkowski-Raum, Skalarfeld und das Problem der Lorentz-Invarianz" Wenn ich jedoch diese URL in Firefox besuche, erhalte ich $ κ $ -Minkowski-Raum, Skalarfeld und das Problem der Lorentz-Invarianz das …

4
Wo ist Pythons "beste ASCII für diese Unicode" -Datenbank?
Ich habe Text, der Unicode-Interpunktion verwendet, wie z. B. linkes doppeltes Anführungszeichen, rechtes einfaches Anführungszeichen für Apostroph usw., und ich benötige ihn in ASCII. Verfügt Python über eine Datenbank dieser Zeichen mit offensichtlichen ASCII-Ersatzzeichen, sodass ich es besser machen kann, als sie alle in "?" ?
84 python  unicode  ascii 





6
Wie viele Zeichen können mit Unicode zugeordnet werden?
Ich bitte um die Anzahl aller möglichen gültigen Kombinationen in Unicode mit Erklärung. Ich weiß, dass ein Zeichen als 1,2,3 oder 4 Bytes codiert werden kann. Ich verstehe auch nicht, warum Fortsetzungsbytes Einschränkungen haben, obwohl das Startbyte dieses Zeichens löscht, wie lange es sein sollte.
82 unicode  utf-8  utf 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.