Ich habe einen Socket-Server, der gültige UTF-8-Zeichen von Clients empfangen soll.
Das Problem ist, dass einige Clients (hauptsächlich Hacker) die falschen Daten darüber senden.
Ich kann den echten Client leicht unterscheiden, aber ich protokolliere alle gesendeten Daten in Dateien, damit ich sie später analysieren kann.
Manchmal bekomme ich solche Zeichen œ
, die den UnicodeDecodeError
Fehler verursachen.
Ich muss in der Lage sein, die Zeichenfolge UTF-8 mit oder ohne diese Zeichen zu erstellen.
Aktualisieren:
Für meinen speziellen Fall war der Socket-Dienst ein MTA und daher erwarte ich nur ASCII-Befehle wie:
EHLO example.com
MAIL FROM: <john.doe@example.com>
...
Ich habe das alles in JSON protokolliert.
Dann beschlossen einige Leute da draußen ohne gute Absichten, alle Arten von Müll zu verkaufen.
Aus diesem Grund ist es für meinen speziellen Fall vollkommen in Ordnung, die Nicht-ASCII-Zeichen zu entfernen.