Für Aufgaben dieses Typs verwende ich normalerweise Crawller4j + Jsoup.
Mit crawler4j lade ich die Seiten von einer Domain herunter, Sie können angeben, welche ULR mit einem regulären Ausdruck.
Mit jsoup habe ich die HTML-Daten "analysiert", nach denen Sie gesucht und mit crawler4j heruntergeladen haben.
Normalerweise können Sie Daten auch mit jsoup herunterladen, aber Crawler4J erleichtert das Auffinden von Links. Ein weiterer Vorteil der Verwendung von crawler4j besteht darin, dass es sich um Multithreading handelt und Sie die Anzahl der gleichzeitigen Threads konfigurieren können
https://github.com/yasserg/crawler4j/wiki