Ich habe Probleme mit Unicode-Zeichen aus Text, der von verschiedenen Webseiten (auf verschiedenen Websites) abgerufen wurde. Ich benutze BeautifulSoup. Das Problem ist, dass der Fehler nicht immer reproduzierbar ist. es funktioniert manchmal mit einigen Seiten, und manchmal barfs es, indem es ein wirft UnicodeEncodeError. Ich habe so gut wie alles …
Ich habe Probleme beim Analysieren von HTML-Elementen mit dem Attribut "class" mithilfe von Beautifulsoup. Der Code sieht so aus soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Ich erhalte eine Fehlermeldung in derselben Zeile "nachdem" das Skript beendet wurde. File "./beautifulcoding.py", line …
... soup = BeautifulSoup(html, "lxml") File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__ % ",".join(features)) bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? Die oben genannten Ausgänge auf meinem Terminal. Ich bin unter Mac OS 10.7.x. Ich habe Python 2.7.1 …
Ich versuche, eine Website zu kratzen, aber es gibt mir einen Fehler. Ich verwende den folgenden Code: import urllib.request from bs4 import BeautifulSoup get = urllib.request.urlopen("https://www.website.com/") html = get.read() soup = BeautifulSoup(html) print(soup) Und ich bekomme folgenden Fehler: File "C:\Python34\lib\encodings\cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec can't …
TypeError: Ein byteähnliches Objekt ist erforderlich, nicht 'str' Fehler beim Ausführen des folgenden Python-Codes zum Speichern der HTML-Tabellendaten in der CSV-Datei. Ich weiß nicht, wie ich Rideup bekommen soll. Bitte helfen Sie mir. import csv import requests from bs4 import BeautifulSoup url='http://www.mapsofindia.com/districts-india/' response=requests.get(url) html=response.content soup=BeautifulSoup(html,'html.parser') table=soup.find('table', attrs={'class':'tableizer-table'}) list_of_rows=[] for row …
soup.find("tagName", { "id" : "articlebody" }) Warum werden die <div id="articlebody"> ... </div>Tags und Inhalte dazwischen NICHT zurückgegeben ? Es gibt nichts zurück. Und ich weiß, dass es existiert, weil ich direkt darauf starre soup.prettify() soup.find("div", { "id" : "articlebody" }) funktioniert auch nicht. ( BEARBEITEN: Ich habe festgestellt, dass …
Ich arbeite in Python und benutze Flask. Wenn ich meine Haupt-Python-Datei auf meinem Computer ausführe, funktioniert es einwandfrei. Wenn ich jedoch venv aktiviere und die Flask-Python-Datei im Terminal ausführe, heißt es, dass meine Haupt-Python-Datei "No Module Named bs4" enthält. Kommentare oder Ratschläge werden sehr geschätzt.
Ich möchte eine Website erstellen, die den Vergleich zwischen dem Produktpreis von Amazon und E-Bay zeigt. Welche davon funktioniert besser und warum? Ich bin ein bisschen vertraut mit BeautifulSoup, aber nicht so sehr mit Scrapy Crawler .
Grundsätzlich möchte ich BeautifulSoup verwenden, um den sichtbaren Text auf einer Webseite genau zu erfassen. Zum Beispiel ist diese Webseite mein Testfall. Und ich möchte hauptsächlich nur den Text (Artikel) und vielleicht sogar ein paar Registerkartennamen hier und da bekommen. Ich habe den Vorschlag in dieser SO-Frage ausprobiert, der viele …
Ich übe den Code aus 'Web Scraping with Python' und habe weiterhin das folgende Zertifikatsproblem: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in link.attrs: if link.attrs['href'] not …
Ich möchte alle <a>Tags erhalten, die Kinder von <li>: <div> <li class="test"> <a>link1</a> <ul> <li> <a>link2</a> </li> </ul> </li> </div> Ich weiß, wie man ein Element mit einer bestimmten Klasse wie dieser findet: soup.find("li", { "class" : "test" }) Aber ich weiß nicht, wie ich alle finden soll, von <a>denen …
Ich versuche, den Inhalt eines einzelnen "Wert" -Attributs in einem bestimmten "Eingabe" -Tag auf einer Webseite zu extrahieren. Ich benutze den folgenden Code: import urllib f = urllib.urlopen("http://58.68.130.147") s = f.read() f.close() from BeautifulSoup import BeautifulStoneSoup soup = BeautifulStoneSoup(s) inputTag = soup.findAll(attrs={"name" : "stainfo"}) output = inputTag['value'] print str(output) Ich …
Ich benutze BeautifulSoup, um eine URL zu kratzen, und ich hatte den folgenden Code import urllib import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" req = urllib2.Request(url) response = urllib2.urlopen(req) the_page = response.read() soup = BeautifulSoup(the_page) soup.findAll('td',attrs={'class':'empformbody'}) Jetzt können wir im obigen Code findAllTags und Informationen dazu abrufen, aber …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.