Kürzlich habe ich erfahren, dass die Verwendung eines regulären Ausdrucks zum Parsen des HTML-Codes einer Website, um die benötigten Daten zu erhalten, nicht die beste Vorgehensweise ist.
Meine Frage ist also einfach: Was ist dann der beste / effizienteste und allgemein stabile Weg, um diese Daten zu erhalten?
Ich sollte beachten, dass:
- Es gibt keine APIs
- Es gibt keine andere Quelle, aus der ich die Daten beziehen kann (keine Datenbanken, Feeds und dergleichen).
- Es besteht kein Zugriff auf die Quelldateien. (Daten von öffentlichen Websites)
- Angenommen, die Daten sind normaler Text, der in einer Tabelle auf einer HTML-Seite angezeigt wird
Ich verwende derzeit Python für mein Projekt, aber eine sprachunabhängige Lösung / Tipps wäre schön.
Als Nebenfrage: Wie würden Sie vorgehen, wenn die Webseite von Ajax-Aufrufen erstellt wird?
BEARBEITEN:
Beim HTML-Parsing weiß ich, dass es keinen stabilen Weg gibt, um die Daten abzurufen. Sobald sich die Seite ändert, ist Ihr Parser für fertig. Was ich in diesem Fall mit Stable meine, ist: eine effiziente Methode zum Parsen der Seite, die mir immer die gleichen Ergebnisse liefert (natürlich für den gleichen Datensatz), vorausgesetzt, die Seite ändert sich nicht .