Als «beautifulsoup» getaggte Fragen

Beautiful Soup ist ein Python-Paket zum Parsen von HTML / XML. Die neueste Version dieses Pakets ist Version 4, importiert als bs4.

28
UnicodeEncodeError: Der Codec 'ascii' kann das Zeichen u '\ xa0' an Position 20 nicht codieren: Ordnungszahl nicht im Bereich (128)
Ich habe Probleme mit Unicode-Zeichen aus Text, der von verschiedenen Webseiten (auf verschiedenen Websites) abgerufen wurde. Ich benutze BeautifulSoup. Das Problem ist, dass der Fehler nicht immer reproduzierbar ist. es funktioniert manchmal mit einigen Seiten, und manchmal barfs es, indem es ein wirft UnicodeEncodeError. Ich habe so gut wie alles …

16
So finden Sie Elemente nach Klasse
Ich habe Probleme beim Analysieren von HTML-Elementen mit dem Attribut "class" mithilfe von Beautifulsoup. Der Code sieht so aus soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Ich erhalte eine Fehlermeldung in derselben Zeile "nachdem" das Skript beendet wurde. File "./beautifulcoding.py", line …

12
bs4.FeatureNotFound: Es konnte kein Tree Builder mit den von Ihnen angeforderten Funktionen gefunden werden: lxml. Müssen Sie eine Parser-Bibliothek installieren?
... soup = BeautifulSoup(html, "lxml") File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__ % ",".join(features)) bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? Die oben genannten Ausgänge auf meinem Terminal. Ich bin unter Mac OS 10.7.x. Ich habe Python 2.7.1 …

6
UnicodeEncodeError: Der Codec 'charmap' kann keine Zeichen codieren
Ich versuche, eine Website zu kratzen, aber es gibt mir einen Fehler. Ich verwende den folgenden Code: import urllib.request from bs4 import BeautifulSoup get = urllib.request.urlopen("https://www.website.com/") html = get.read() soup = BeautifulSoup(html) print(soup) Und ich bekomme folgenden Fehler: File "C:\Python34\lib\encodings\cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec can't …

5
TypeError: Ein byteähnliches Objekt ist erforderlich, nicht 'str' in Python und CSV
TypeError: Ein byteähnliches Objekt ist erforderlich, nicht 'str' Fehler beim Ausführen des folgenden Python-Codes zum Speichern der HTML-Tabellendaten in der CSV-Datei. Ich weiß nicht, wie ich Rideup bekommen soll. Bitte helfen Sie mir. import csv import requests from bs4 import BeautifulSoup url='http://www.mapsofindia.com/districts-india/' response=requests.get(url) html=response.content soup=BeautifulSoup(html,'html.parser') table=soup.find('table', attrs={'class':'tableizer-table'}) list_of_rows=[] for row …

11
Schöne Suppe und Extrahieren eines Div und seines Inhalts nach ID
soup.find("tagName", { "id" : "articlebody" }) Warum werden die <div id="articlebody"> ... </div>Tags und Inhalte dazwischen NICHT zurückgegeben ? Es gibt nichts zurück. Und ich weiß, dass es existiert, weil ich direkt darauf starre soup.prettify() soup.find("div", { "id" : "articlebody" }) funktioniert auch nicht. ( BEARBEITEN: Ich habe festgestellt, dass …




10
BeautifulSoup Grab Sichtbarer Webseitentext
Grundsätzlich möchte ich BeautifulSoup verwenden, um den sichtbaren Text auf einer Webseite genau zu erfassen. Zum Beispiel ist diese Webseite mein Testfall. Und ich möchte hauptsächlich nur den Text (Artikel) und vielleicht sogar ein paar Registerkartennamen hier und da bekommen. Ich habe den Vorschlag in dieser SO-Frage ausprobiert, der viele …

17
Scraping: SSL: CERTIFICATE_VERIFY_FAILED-Fehler für http://en.wikipedia.org
Ich übe den Code aus 'Web Scraping with Python' und habe weiterhin das folgende Zertifikatsproblem: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in link.attrs: if link.attrs['href'] not …

6
So finden Sie untergeordnete Elemente von Knoten mithilfe von BeautifulSoup
Ich möchte alle <a>Tags erhalten, die Kinder von <li>: <div> <li class="test"> <a>link1</a> <ul> <li> <a>link2</a> </li> </ul> </li> </div> Ich weiß, wie man ein Element mit einer bestimmten Klasse wie dieser findet: soup.find("li", { "class" : "test" }) Aber ich weiß nicht, wie ich alle finden soll, von <a>denen …

6
Extrahieren eines Attributwerts mit beautifulsoup
Ich versuche, den Inhalt eines einzelnen "Wert" -Attributs in einem bestimmten "Eingabe" -Tag auf einer Webseite zu extrahieren. Ich benutze den folgenden Code: import urllib f = urllib.urlopen("http://58.68.130.147") s = f.read() f.close() from BeautifulSoup import BeautifulStoneSoup soup = BeautifulStoneSoup(s) inputTag = soup.findAll(attrs={"name" : "stainfo"}) output = inputTag['value'] print str(output) Ich …

9
können wir xpath mit BeautifulSoup verwenden?
Ich benutze BeautifulSoup, um eine URL zu kratzen, und ich hatte den folgenden Code import urllib import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" req = urllib2.Request(url) response = urllib2.urlopen(req) the_page = response.read() soup = BeautifulSoup(the_page) soup.findAll('td',attrs={'class':'empformbody'}) Jetzt können wir im obigen Code findAllTags und Informationen dazu abrufen, aber …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.