Ich habe ein Textdokument, das eine Menge Text enthält, der nach jedem Buchstaben ein zusätzliches Leerzeichen enthält!
Beispiel:
T h e b o o k a l s o h a s a n a n a l y t i c a l p u r p o s e w h i c h i s m o r e i m p o r t a n t…
Visuell:
T␣h␣e␣b␣␣o␣o␣k␣a␣␣l␣s␣o␣h␣␣a␣s␣a␣␣n␣a␣␣n␣a␣l␣y␣t␣i ␣c␣a␣l␣p␣␣u␣r␣p␣o␣s␣e␣w␣␣h␣i␣c␣h␣i␣␣s␣m␣␣o␣r␣e␣i␣ m␣p␣o␣r␣t␣a␣n␣t…
Beachten Sie, dass es ein Extra gibt nach jedem Buchstaben Leerzeichen steht, sodass zwischen aufeinanderfolgenden Wörtern zwei Leerzeichen stehen.
Gibt es einen Weg, den ich bekommen kann awk
odersed
die zusätzlichen Leerzeichen zu löschen? (Leider ist dieses Textdokument sehr umfangreich und die manuelle Bearbeitung würde sehr viel Zeit in Anspruch nehmen.)
Ich schätze, dass dies wahrscheinlich ein viel komplexeres Problem ist, das nur mit einem einfachen Bash-Skript gelöst werden kann, da es auch eine Art Texterkennung geben muss.
Wie kann ich dieses Problem angehen?
echo 't h i s i s a n e x a m p l e' | sed 's/ //g'
echo 'T h i s ; i s .a n 9 8 e x a m p l e' | perl -pe 's/[a-z]\K (?=[a-z])//ig'