Unicode ist ein Standard für die Codierung, Darstellung und Handhabung von Text mit der Absicht, alle Zeichen zu unterstützen, die für geschriebenen Text erforderlich sind, einschließlich aller Schriftsysteme, technischen Symbole und Satzzeichen.
Geschlossen. Diese Frage entspricht nicht den Richtlinien für Stapelüberlauf . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Stack - Überlauf. Geschlossen vor 3 Jahren . Verbessere diese Frage Wir haben also das XSS-Spickzettel , um unsere XSS-Filterung …
Ich bin neu in der Windows-Programmierung und nachdem ich das Petzold-Buch gelesen habe, frage ich mich: Ist es immer noch eine gute Praxis, den TCHARTyp und die _T()Funktion zum Deklarieren von Zeichenfolgen zu verwenden, oder sollte ich nur die Zeichenfolgen wchar_tund L""in neuem Code verwenden? Ich werde nur auf Windows …
Folgendes ersetzt ASCII-Steuerzeichen (Abkürzung für [\x00-\x1F\x7F]): my_string.replaceAll("\\p{Cntrl}", "?"); Im Folgenden werden alle nicht druckbaren ASCII-Zeichen (Abkürzung für [\p{Graph}\x20]) ersetzt, einschließlich Zeichen mit Akzent: my_string.replaceAll("[^\\p{Print}]", "?"); Beides funktioniert jedoch nicht für Unicode-Zeichenfolgen. Hat jemand eine gute Möglichkeit, nicht druckbare Zeichen aus einer Unicode-Zeichenfolge zu entfernen?
Wenn ich das folgende Perl-Programm ausführe: perl -e 'use utf8; print "鸡\n";' Ich bekomme diese Warnung: Wide character in print at -e line 1. Wenn ich dieses Perl-Programm ausführe: perl -e 'print "鸡\n";' Ich bekomme keine Warnung. Ich dachte, es use utf8sei erforderlich, UTF-8-Zeichen in einem Perl-Skript zu verwenden. Warum …
Ich habe viele Leute in der C ++ - Community gesehen (insbesondere ## c ++ auf freenode), die die Verwendung von wstringsund wchar_tund ihre Verwendung in der Windows-API ablehnen. Was ist genau "falsch" an wchar_tund wstring, und wenn ich die Internationalisierung unterstützen möchte, welche Alternativen gibt es zu breiten Charakteren?
Ich komprimiere JavaScript-Dateien und der Kompressor beschwert sich, dass meine Dateien Zeichen enthalten. Wie kann ich nach diesen Zeichen suchen und sie entfernen?
Ich schreibe einen Webservice, der json verwendet, um seine Ressourcen darzustellen, und ich bin ein bisschen festgefahren, wie ich den json am besten codieren kann. Beim Lesen des json rfc ( http://www.ietf.org/rfc/rfc4627.txt ) ist klar, dass die bevorzugte Codierung utf-8 ist. Der RFC beschreibt aber auch einen Mechanismus zum Entkommen …
Der folgende Code ist sehr bekannt dafür, Zeichen mit Akzent in einfachen Text umzuwandeln: Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", ""); Ich habe meine "handgemachte" Methode durch diese ersetzt, aber ich muss den "Regex" -Teil von replaceAll verstehen 1) Was ist "InCombiningDiacriticalMarks"? 2) Wo ist die Dokumentation davon? (und ähnliche?) Vielen Dank.
Der folgende Code: var text = (new WebClient()).DownloadString("http://export.arxiv.org/api/query?search_query=au:Freidel_L*&start=0&max_results=20")); führt zu einer Variablen text, die unter anderem die Zeichenfolge enthält "$ κ $ -Minkowski-Raum, Skalarfeld und das Problem der Lorentz-Invarianz" Wenn ich jedoch diese URL in Firefox besuche, erhalte ich $ κ $ -Minkowski-Raum, Skalarfeld und das Problem der Lorentz-Invarianz das …
Ich habe Text, der Unicode-Interpunktion verwendet, wie z. B. linkes doppeltes Anführungszeichen, rechtes einfaches Anführungszeichen für Apostroph usw., und ich benötige ihn in ASCII. Verfügt Python über eine Datenbank dieser Zeichen mit offensichtlichen ASCII-Ersatzzeichen, sodass ich es besser machen kann, als sie alle in "?" ?
Ich habe eine Zeichenfolge mit maskierten Unicode- Zeichen \uXXXXund möchte sie in reguläre Unicode-Buchstaben konvertieren. Zum Beispiel: "\u0048\u0065\u006C\u006C\u006F World" soll werden "Hello World" Ich weiß, dass beim Drucken der ersten Zeichenfolge diese bereits angezeigt wird Hello world. Mein Problem ist, dass ich Dateinamen aus einer Datei lese und dann nach …
Wenn ich in MySQL ein neues VARCHAR(32)Feld in einer UTF-8-Tabelle erstelle, bedeutet dies, dass ich 32 Datenbytes in diesem Feld oder 32 Zeichen (Multi-Byte) speichern kann?
Ich habe ein Problem mit der Codierung des Pfades variabel und an die Einfügen von SQLite - Datenbank. Ich habe versucht, es mit der Codierungsfunktion ("utf-8") zu lösen, was nicht geholfen hat. Dann habe ich die Funktion unicode () verwendet, die mir den Typ unicode gibt . print type(path) # …
Welche Voraussetzungen sind für eine strikte Unicode-Programmierung erforderlich? Bedeutet dies, dass mein Code charnirgendwo Typen verwenden sollte und dass Funktionen verwendet werden müssen, die mit wint_tund umgehen können wchar_t? Und welche Rolle spielen Multibyte-Zeichenfolgen in diesem Szenario?
Ich bitte um die Anzahl aller möglichen gültigen Kombinationen in Unicode mit Erklärung. Ich weiß, dass ein Zeichen als 1,2,3 oder 4 Bytes codiert werden kann. Ich verstehe auch nicht, warum Fortsetzungsbytes Einschränkungen haben, obwohl das Startbyte dieses Zeichens löscht, wie lange es sein sollte.
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.