Als «scraping» getaggte Fragen

2
Der effizienteste (Zeit, Kosten) Weg, um 5 Millionen Webseiten zu kratzen?
Ich habe eine Liste von Webseiten, die ich kratzen, analysieren und dann die resultierenden Daten in einer Datenbank speichern muss. Die Summe beträgt rund 5.000.000. Meine derzeitige Annahme, dass dies am besten angegangen werden kann, besteht darin, ~ 100 EC2-Instanzen bereitzustellen, jeder Instanz 50.000 Seiten zum Scrapen bereitzustellen und diese …

7
Wie vermeide ich Kratzer?
Wir haben eine durchsuchbare Datenbank (DB), wir beschränken die Ergebnisse auf 15 pro Seite und nur auf 100 Ergebnisse, aber die Leute versuchen immer noch, die Site zu kratzen . Wir verbieten Websites, die es schnell genug erreichen. Ich habe mich gefragt, ob wir noch etwas tun können. Flash rendern …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.