Kann ich Skript-Tags mit BeautifulSoup entfernen?

Können Skript-Tags und alle ihre Inhalte mit BeautifulSoup aus HTML entfernt werden, oder muss ich reguläre Ausdrücke oder etwas anderes verwenden?

python html beautifulsoup

— Sam
quelle

Antworten:

160

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup('<script>a</script>baba<script>b</script>', 'lxml')
>>> for s in soup.select('script'):
>>>    s.extract()
>>> soup
baba

— Fábio Diniz
quelle

Was ist der beste Weg, um zusätzliche zu entfernende Tags zu verketten? Im Moment funktioniert es, wenn ich den Befehl nacheinander wiederhole, mit [s.extract () für s in Suppe ('script')], dann [s.extract () für s in Suppe ('iframe')] und so weiter , aber nicht, wenn ich sie so verkette [s.extract () für s in suppe ('iframe', 'script')].

— Ila

@Ali Sie müssten verwenden [s.extract() for s in soup(['iframe', 'script'])]Beachten Sie, dass der Parameter eine Liste sein muss, um mehrere Tags zu verwenden

— Fábio Diniz

@ FábioDiniz Wie würde ich so etwas extrahieren wie : '<script class="blah">a</script>baba<script id="blahhhh">b</script>'? Ist es das Gleiche?

— user2883071

Das Suppenobjekt wird nach diesem Vorgang unbrauchbar, es werden keine Tags mehr gefunden.

— Imrek

Dies ist veraltet, BeautifulSoup scheint die Zeichenfolge jetzt auf HTML zu formatieren:<html><head></head><body><p>baba</p></body></html>

— CloC

Aktualisierte Antwort für diejenigen, die möglicherweise später nachschlagen müssen: Die richtige Antwort lautet. decompose() Sie können verschiedene Methoden verwenden, arbeiten jedoch vor decomposeOrt.

Anwendungsbeispiel:

soup = BeautifulSoup('<p>This is a slimy text and <i> I am slimer</i></p>')
soup.i.decompose()
print str(soup)
#prints '<p>This is a slimy text and</p>'

Ziemlich nützlich, um Detritus wie 'script', 'img' usw. loszuwerden.

— Abhishek Dujari
quelle

Der Unterschied zwischen decomposeund extractbesteht darin, dass Letzteres das entfernte Objekt zurückgibt, während Ersteres es nur zerstört. Dies ist also die genauere Antwort auf die Frage, aber die anderen Methoden funktionieren.

— Mike

Decompose entfernt nicht den Inhalt von Skript-Tags, sondern nur die Tags.

— Roland Pihlakas

Ich stimme Ihren beiden Kommentaren zu. Aus diesem Grund habe ich gemäß OP die richtige Antwort auf den removeInhalt gegeben. Wird häufig zum Bereinigen von HTML von nicht benötigten Tags und zum Formatieren verwendet.

— Abhishek Dujari

Laut Dokumentation: "Tag.decompose () entfernt ein Tag aus dem Baum und zerstört es dann vollständig und seinen Inhalt:" crummy.com/software/BeautifulSoup/bs4/doc/#decompose

— jarcobi889

@Vangel Entschuldigung, ich glaube, ich habe vergessen, in meinem Kommentar eine Erwähnung hinzuzufügen: Ich glaube, ich habe Roland Pihlakas mit diesem Kommentar geantwortet.

— jarcobi889

Wie in der ( offiziellen Dokumentation ) angegeben, können Sie mit dieser extractMethode alle Teilbäume entfernen, die der Suche entsprechen.

import BeautifulSoup
a = BeautifulSoup.BeautifulSoup("<html><body><script>aaa</script></body></html>")
[x.extract() for x in a.findAll('script')]

— Santiago Alessandri
quelle