Das Öffnen einer UTF-8-Datei mit UTF-16-Codierung in gedit führt zu lesbarem Chinesisch


1

Ich weiß, dass dies kein wirkliches Problem ist, aber ich war wirklich neugierig, warum dies geschieht.

Wie reproduziere ich dieses Phänomen?

Öffnen Sie gedit und geben Sie etwas ein (ich habe Lorem Ipsum-Text von lipsum.com verwendet). Speichern Sie die Datei und schließen Sie gedit.

Öffnen Sie es erneut und klicken Sie auf "Öffnen" und dann auf "Andere Dokumente ...". Klicken Sie auf die Datei, die Sie gerade erstellt haben. Bevor Sie auf "Öffnen" klicken, klicken Sie auf "Zeichencodierung" und wählen Sie "UTF-16" aus.

Sobald die Datei geöffnet ist, werden im Editor einige Chinesen angezeigt, die mit zufälligen, nicht darstellbaren Unicode-Zeichen gemischt sind. Hier beginnt der wirklich seltsame Teil: Öffnen Sie Google Translate und fügen Sie das Chinesische ein. Stellen Sie sicher, dass Sie "Chinesisch" als Sprache auswählen.

Abhängig vom Text werden Sie fast immer irgendwo ein verständliches (und sogar normales) Englisch sehen. In meinem Fall sah ich: "Für weitere Informationen besuchen Sie bitte unsere Website unter: www.globalcouncil.org" und "Dies ist das erste Mal, dass Sie uns in diesem Bereich besuchen. Gerne können Sie unsere Website besuchen . " Den vollständigen Text finden Sie auf Pastebin.

Andere Beobachtungen

  • Bei der Übersetzung des Textes über die Website unter freetranslation.com wird ein Teil des Textes in umgekehrter Reihenfolge wiedergegeben: "image ⁥ macro 瑡 礠 桴 樠 with hunting ⁴ 慭 und die Preise sind 礠 礠 挠 macro Ɱ Ɱ Eine gebräuchliche Wendung
  • Wenn dieser Text umgekehrt ist, ist er derselbe wie der ursprüngliche Text, den ich eingetippt habe, als die Codierung UTF-8 war.
  • Der umgekehrte Text scheint sich so zu verhalten, als ob er tatsächlich auch rückwärts wäre; Wenn ich etwas am Ende des Textes eingebe, erscheint es am Anfang.
  • Einige der Sätze klingen so normal (und manchmal auch lustig), dass es den Anschein hat, als könne dies keine Eigenheit der Übersetzungssoftware sein. Dies war nicht im Originaltext, den ich eingegeben habe.
  • Ich habe diese Frage bei LinuxQuestions gefunden , die das Phänomen bei Verwendung von Google Translate reproduziert. Hier ist ein Teil des verständlichen Englisch: "Dies ist ein Ort, an dem Sie Ihre Lieblingsschüssel und -schüssel finden können."

Die Frage

Warum passiert dies? Und warum klingen die erzeugten Sätze so realistisch? Ist es eine Eigenheit von Gedit oder den Übersetzern? (Es wäre schön, wenn ein chinesischer Muttersprachler mir seine Meinung mitteilen könnte.)

Dies ist meine erste Frage zum Super-User. Seien Sie also bitte nicht hart zu mir. Danke im Voraus.


1
Mit ziemlicher Sicherheit stellt der Übersetzer fest, dass es sich um nicht lesbares Chinesisch handelt, stellt dann fest, dass UTF-8 verstümmelt ist, und "übersetzt" es für Sie. Ich bin mir zu 99% sicher, dass die Umkehrung durch einen RTL-Override irgendwo in diesem Text verursacht wird.
wizzwizz4

Antworten:


1

Als chinesischer Sprecher kann ich Ihnen sicher sagen, dass diese chinesischen Schriftzeichen alle ungültiger und zufälliger Müll sind (Entschuldigung, dass Sie das Rätsel gelöst haben). Das Problem tritt hier auf:

Hier beginnt der wirklich seltsame Teil: Öffnen Sie Google Translate und fügen Sie das Chinesische ein. Stellen Sie sicher, dass Sie "Chinesisch" als Sprache auswählen

Google Translate für Chinesisch <> Englisch ist nicht so zuverlässig, wie es scheint. Aufgrund der völlig unterschiedlichen Sprachstruktur von Chinesisch und Englisch verfügt Google noch nicht über eine sehr genaue Übersetzung von Chinesisch nach Englisch / Englisch nach Chinesisch. Um Ihr Beispiel zu zitieren.

Bild ⁥ Makro 瑡 瑡 桴 礠 mit der Jagd ⁴ ⁴ und die Preise sind 礠 礠 楬 Makro Ɱ Ɱ Eine gemeinsame Phrase

All diese chinesischen Wörter ergeben überhaupt keinen Sinn. Aber Google Übersetzer dachte, Sie fügen tatsächlich etwas Nützliches dort ein, so dass es nur zufällig Wörter in seiner Datenbank verbindet.

Lassen Sie uns diese beiden "挠 挠" herausnehmen, die auf lange Sicht eine winzige Verbindung haben könnten.

"挠" kann Blume gießen "挠 挠"

Und "楬" kann eine Art Baum sein. Vielleicht tränkt "挠 楬" einen Baum (auch wenn wir niemals chinesische Wörter wie oben beschrieben zusammen verwenden)

Aber Google Translate war wie "挠 挠 bedeutet Flexibilität"

Also ja ... Das Problem ist nur, dass Google Translate schlecht ist, das ist alles.

Dazu:

"Weitere Informationen finden Sie auf unserer Website unter: www.globalcouncil.org" und "Zum ersten Mal besuchen Sie uns in diesem Bereich. Gerne können Sie unsere Website besuchen."

Ich vermute, Sie kopieren diesen Text versehentlich zusammen mit den chinesischen Wörtern.

Und für die ganzen Rückwärtswörter denke ich, dass wizzwizz4 diese Lösung bereits für Sie bereitstellt

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.