2
Der effizienteste (Zeit, Kosten) Weg, um 5 Millionen Webseiten zu kratzen?
Ich habe eine Liste von Webseiten, die ich kratzen, analysieren und dann die resultierenden Daten in einer Datenbank speichern muss. Die Summe beträgt rund 5.000.000. Meine derzeitige Annahme, dass dies am besten angegangen werden kann, besteht darin, ~ 100 EC2-Instanzen bereitzustellen, jeder Instanz 50.000 Seiten zum Scrapen bereitzustellen und diese …