Ich habe ein paar hundert HTML-Quellcode-Dateien. Ich muss den Inhalt eines bestimmten <div>
Elements aus jeder dieser Dateien extrahieren, damit ich ein Skript schreiben kann, das die einzelnen Dateien durchläuft. Die Elementstruktur ist wie folgt:
<div id='the_div_id'>
<div id='some_other_div'>
<h3>Some content</h3>
</div>
</div>
Kann jemand eine Methode vorschlagen, mit der ich das div the_div_id
und alle untergeordneten Elemente und Inhalte aus einer Datei mit der Linux-Befehlszeile extrahieren kann ?
hxselect
ist wählerischer in Bezug auf das Eingabeformat alspup
. Zum Beispiel komme ichInput is not well-formed. (Maybe try normalize?)
mithxselect
dempup
Parsen klar.