Als «html-content-extraction» getaggte Fragen



8
Extrahieren Sie einen Teil eines Regex-Matches
Ich möchte, dass ein regulärer Ausdruck den Titel aus einer HTML-Seite extrahiert. Derzeit habe ich Folgendes: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') Gibt es einen regulären Ausdruck, um nur den Inhalt von <title> zu extrahieren, damit ich die Tags nicht entfernen muss?

10
BeautifulSoup Grab Sichtbarer Webseitentext
Grundsätzlich möchte ich BeautifulSoup verwenden, um den sichtbaren Text auf einer Webseite genau zu erfassen. Zum Beispiel ist diese Webseite mein Testfall. Und ich möchte hauptsächlich nur den Text (Artikel) und vielleicht sogar ein paar Registerkartennamen hier und da bekommen. Ich habe den Vorschlag in dieser SO-Frage ausprobiert, der viele …

9
Parsen von HTML auf dem iPhone [geschlossen]
Diese Frage passt derzeit nicht zu unserem Q & A-Format. Wir erwarten, dass die Antworten durch Fakten, Referenzen oder Fachwissen gestützt werden, aber diese Frage wird wahrscheinlich zu Debatten, Argumenten, Umfragen oder erweiterten Diskussionen führen. Wenn Sie der Meinung sind, dass diese Frage verbessert und möglicherweise erneut geöffnet werden kann, …

3
Verwenden von BeautifulSoup, um ein HTML-Tag zu finden, das bestimmten Text enthält
Ich versuche, die Elemente in einem HTML-Dokument abzurufen, die das folgende Textmuster enthalten: # \ S {11} <h2> this is cool #12345678901 </h2> Das vorherige würde also übereinstimmen, indem es Folgendes verwendet: soup('h2',text=re.compile(r' #\S{11}')) Und die Ergebnisse wären ungefähr so: [u'blahblah #223409823523', u'thisisinteresting #293845023984'] Ich kann den gesamten passenden Text …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.