Ich verwende derzeit Beautiful Soup, um eine HTML-Datei zu analysieren und aufzurufen get_text()
, aber es scheint, als würde mir eine Menge \ xa0 Unicode übrig bleiben, die Leerzeichen darstellen. Gibt es eine effiziente Möglichkeit, alle in Python 2.7 zu entfernen und in Leerzeichen umzuwandeln? Ich denke, die allgemeinere Frage wäre, gibt es eine Möglichkeit, die Unicode-Formatierung zu entfernen?
Ich habe versucht line = line.replace(u'\xa0',' ')
,: zu verwenden , wie von einem anderen Thread vorgeschlagen, aber das hat die \ xa0 in u geändert, sodass ich jetzt stattdessen überall "u" habe. ):
EDIT: Das Problem scheint gelöst zu werden str.replace(u'\xa0', ' ').encode('utf-8')
, aber nur tun , .encode('utf-8')
ohne replace()
es zu verursachen scheint noch seltsame Zeichen auszuzuspucken, \ xc2 zum Beispiel. Kann jemand das erklären?
u''
s anstelle von ''
s. :-)
u' '
Ersetzung verwenden, nicht die ' '
. Ist die ursprüngliche Zeichenfolge die Unicode-Zeichenfolge?