Als «web-scraping» getaggte Fragen

Beim Web-Scraping werden bestimmte Informationen von Websites extrahiert, die keine API oder andere Methoden zum automatisierten Abrufen von Daten bereitstellen. Fragen zu "Erste Schritte mit dem Scraping" (z. B. mit Excel VBA) sollten * gründlich recherchiert * werden, da zahlreiche Beispiele für Funktionscodes verfügbar sind. Web-Scraping-Methoden umfassen Anwendungen von Drittanbietern, die Entwicklung kundenspezifischer Software oder sogar die standardisierte manuelle Datenerfassung.

10
Web Scraping mit Java
Ich kann keine gute Java-basierte Web-Scraping-API finden. Die Site, die ich kratzen muss, bietet auch keine API. Ich möchte mit einigen über alle Webseiten iterieren pageIDund die HTML-Titel / andere Dinge in ihren DOM-Bäumen extrahieren. Gibt es andere Möglichkeiten als Web Scraping?

7
Web Scraping in einer Google Chrome-Erweiterung (JavaScript + Chrome-APIs)
Was sind die besten Optionen für das Web-Scraping eines derzeit nicht geöffneten Tabs in einer Google Chrome-Erweiterung mit JavaScript und den verfügbaren Technologien ? Andere JavaScript-Bibliotheken werden ebenfalls akzeptiert. Das Wichtigste ist, das Scraping so zu maskieren, dass es sich wie eine normale Webanforderung verhält . Keine Hinweise auf AJAX …

8
Wie kann ich schneller kratzen
Die Arbeit hier besteht darin, eine API einer Site zu kratzen, die von https://xxx.xxx.xxx/xxx/1.jsonbis beginnt , https://xxx.xxx.xxx/xxx/1417749.jsonund sie genau in mongodb zu schreiben. Dafür habe ich folgenden Code: client = pymongo.MongoClient("mongodb://127.0.0.1:27017") db = client["thread1"] com = db["threadcol"] start_time = time.time() write_log = open("logging.log", "a") min = 1 max = 1417749 …


1
Mein Skript kann nicht automatisch einige Werte generieren, die innerhalb der Nutzdaten verwendet werden
Ich habe ein Skript erstellt, um die HTML-Elemente von einer Zielseite abzurufen, indem anschließend zwei https-Anforderungen gesendet werden. Mein Skript kann das Ding einwandfrei machen. Ich musste jedoch die vier Werte aus den Chrome-Entwicklungstools kopieren, um die vier darin enthaltenen Schlüssel auszufüllen und payloaddie endgültigen http-Anforderungen zu senden, um die …

2
Der Benutzername kann nicht analysiert werden, um sicherzustellen, dass ich auf einer Website angemeldet bin
Ich habe ein Skript in Python geschrieben, um mich auf einer Website anzumelden und den Benutzernamen zu analysieren, um sicherzustellen, dass ich mich wirklich anmelden konnte. Die unten beschriebene Methode scheint mich dorthin zu bringen. Ich habe jedoch fest codierte Cookies verwendet, die aus Chrome-Entwicklungstools im Skript stammen, um Erfolg …

2
Wie kann ich in Julia Web Scraping durchführen?
Ich möchte die Namen der Universitäten und ihrer Websites von dieser Website in Listen extrahieren . In Python habe ich es mit BeautifulSoup v4 gemacht: import requests from bs4 import BeautifulSoup import pandas as pd page = requests.get('https://thebestschools.org/features/best-computer-science-programs-in-the-world/') content = BeautifulSoup(page.text, 'html.parser') college_name = [] college_link = [] college_name_list = …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.