Antworten:
Es gibt keine „ die Standard - Codierung“, haben Sie viele von ihnen.
UTF-8 , eine Unicode-Codierung, wird heutzutage am häufigsten verwendet. Dies ist die Standardeinstellung für die meisten Linux-Distributionen sowie für viele E-Mail-Clients auf anderen Plattformen. Unter Windows bezieht sich "Unicode" normalerweise auf UTF-16, eine weitere Darstellung desselben Unicodes.
Andere Codierungen werden aufgrund ihrer Einschränkungen und der Unfähigkeit, mehrere Sprachen in derselben Datei zu verwenden, langsam nicht mehr verwendet.
Der "Standard" von ihnen wären die ISO 8859- Kodierungen, hauptsächlich ISO 8859-1 für "Westeuropa".
Ihre Windows-Gegenstücke sind sehr ähnlich. Am gebräuchlichsten ist Windows-1252, auch bekannt als cp1252 , eine Obermenge von ISO 8859-1 . (Ihre cp1251 ist für kyrillische Schrift.)
Siehe auch eine Liste der Zeichenkodierungen .
Ein Python-Skript namens chardet kann die für bestimmte Dateien verwendete Kodierung genau erraten.
chardet
interaktiven Python-Modus ist einfach. import chardet; data = open("myfile").read(); print chardet.detect(data)