Ich möchte abrufen, was sich zwischen diesen beiden Tags befindet - <tr> </tr>
- aus einem HTML-Dokument. Jetzt habe ich keine spezifischen HTML-Anforderungen, die für einen HTML-Parser gerechtfertigt wären. Ich brauche einfach etwas, das passt <tr>
und </tr>
und alles dazwischen bekommt und es könnte mehrere tr
s geben. Ich habe awk ausprobiert, was funktioniert, aber aus irgendeinem Grund gibt es mir Duplikate jeder extrahierten Zeile.
awk '
/<TR/{p=1; s=$0}
p && /<\/TR>/{print $0 FS s; s=""; p=0}
p' htmlfile> newfile
Wie geht man vor?
awk
arbeiten, aber geben Sie Duplikate, versuchen Sie, die Ausgabe Ihrer awk von sort -u
zu übergeben, um sie zu unterscheiden
'/<tr/{p=1}; p; /<\/tr>/{p=0}'
. Posten Sie einige Beispieleingaben und erwartete Ausgaben, wenn dies nicht funktioniert.