Als «web-scraping» getaggte Fragen

Beim Web-Scraping werden bestimmte Informationen von Websites extrahiert, die keine API oder andere Methoden zum automatisierten Abrufen von Daten bereitstellen. Fragen zu "Erste Schritte mit dem Scraping" (z. B. mit Excel VBA) sollten * gründlich recherchiert * werden, da zahlreiche Beispiele für Funktionscodes verfügbar sind. Web-Scraping-Methoden umfassen Anwendungen von Drittanbietern, die Entwicklung kundenspezifischer Software oder sogar die standardisierte manuelle Datenerfassung.


16
So finden Sie Elemente nach Klasse
Ich habe Probleme beim Analysieren von HTML-Elementen mit dem Attribut "class" mithilfe von Beautifulsoup. Der Code sieht so aus soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Ich erhalte eine Fehlermeldung in derselben Zeile "nachdem" das Skript beendet wurde. File "./beautifulcoding.py", line …



3
Welcher HTML-Parser ist der beste? [geschlossen]
Diese Frage passt derzeit nicht zu unserem Q & A-Format. Wir erwarten, dass die Antworten durch Fakten, Referenzen oder Fachwissen gestützt werden, aber diese Frage wird wahrscheinlich zu Debatten, Argumenten, Umfragen oder erweiterten Diskussionen führen. Wenn Sie der Meinung sind, dass diese Frage verbessert und möglicherweise erneut geöffnet werden kann, …

12
Wie wähle ich mit Python einen Dropdown-Menüwert mit Selen aus?
Ich muss ein Element aus einem Dropdown- Menü auswählen . Beispielsweise: <select id="fruits01" class="select" name="fruits"> <option value="0">Choose your fruits:</option> <option value="1">Banana</option> <option value="2">Mango</option> </select> 1) Zuerst muss ich darauf klicken. Ich mache das: inputElementFruits = driver.find_element_by_xpath("//select[id='fruits']").click() 2) Danach muss ich das gute Element auswählen, sagen wir mal Mango. Ich habe …

14
Web-Scraping-JavaScript-Seite mit Python
Ich versuche einen einfachen Web Scraper zu entwickeln. Ich möchte Text ohne den HTML-Code extrahieren. Tatsächlich erreiche ich dieses Ziel, aber ich habe gesehen, dass ich auf einigen Seiten, auf denen JavaScript geladen ist, keine guten Ergebnisse erzielt habe. Wenn beispielsweise ein JavaScript-Code Text hinzufügt, kann ich ihn nicht sehen, …




7
Puppenspieler: Variable in .evaluate () übergeben
Ich versuche, eine Variable in Puppeteer an eine page.evaluate()Funktion zu übergeben , aber wenn ich das folgende sehr vereinfachte Beispiel verwende, ist die Variable undefiniert.evalVar Ich bin neu bei Puppeteer und kann keine Beispiele finden, auf denen ich aufbauen kann. Daher benötige ich Hilfe beim Übergeben dieser Variablen an die …

4
Wie verwende ich Python-Anfragen, um einen Browser-Besuch vorzutäuschen?
Ich möchte den Inhalt von der folgenden Website erhalten. Wenn ich einen Browser wie Firefox oder Chrome verwende, kann ich die gewünschte Website-Seite abrufen. Wenn ich jedoch das Python-Anforderungspaket (oder den wgetBefehl) verwende, wird eine völlig andere HTML-Seite zurückgegeben. Ich dachte, der Entwickler der Website hätte einige Blöcke dafür gemacht, …

17
Scraping: SSL: CERTIFICATE_VERIFY_FAILED-Fehler für http://en.wikipedia.org
Ich übe den Code aus 'Web Scraping with Python' und habe weiterhin das folgende Zertifikatsproblem: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in link.attrs: if link.attrs['href'] not …


2
Selen mit Scrapy für dynamische Seite
Ich versuche, Produktinformationen mithilfe von Scrapy von einer Webseite zu entfernen. Meine zu kratzende Webseite sieht folgendermaßen aus: Beginnt mit einer product_list-Seite mit 10 Produkten Ein Klick auf "Weiter" lädt die nächsten 10 Produkte (URL ändert sich nicht zwischen den beiden Seiten) Ich benutze LinkExtractor, um jedem Produktlink auf der …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.