Ich codiere viele Parser. Bisher habe ich den kopflosen Browser HtmlUnit zum Parsen und zur Browserautomatisierung verwendet.
Jetzt möchte ich beide Aufgaben trennen.
Da 80% meiner Arbeit nur das Parsen umfasst, möchte ich einen leichten HTML-Parser verwenden, da es in HtmlUnit viel Zeit kostet, zuerst eine Seite zu laden, dann die Quelle abzurufen und sie dann zu analysieren.
Ich möchte wissen, welcher HTML-Parser der beste ist. Der Parser wäre besser, wenn er sich in der Nähe des HtmlUnit-Parsers befindet.
BEARBEITEN:
Am besten möchte ich mindestens die folgenden Funktionen:
- Geschwindigkeit
- Einfaches Auffinden von HTML-Elementen anhand ihrer "ID" oder "Name" oder "Tag-Typ".
Es wäre in Ordnung für mich, wenn der schmutzige HTML-Code nicht bereinigt würde. Ich muss keine HTML-Quelle bereinigen. Ich brauche nur einen einfachsten Weg, um über HtmlElements zu wechseln und Daten von ihnen zu sammeln.