Ich versuche, die Elemente in einem HTML-Dokument abzurufen, die das folgende Textmuster enthalten: # \ S {11}
<h2> this is cool #12345678901 </h2>
Das vorherige würde also übereinstimmen, indem es Folgendes verwendet:
soup('h2',text=re.compile(r' #\S{11}'))
Und die Ergebnisse wären ungefähr so:
[u'blahblah #223409823523', u'thisisinteresting #293845023984']
Ich kann den gesamten passenden Text abrufen (siehe Zeile oben). Ich möchte jedoch, dass das übergeordnete Element des Textes übereinstimmt, damit ich es als Ausgangspunkt für das Durchlaufen des Dokumentbaums verwenden kann. In diesem Fall möchte ich, dass alle h2-Elemente zurückgegeben werden und nicht der Text übereinstimmt.
Ideen?