Ich habe Tausende von Listen mit Zeichenfolgen, und jede Liste enthält ungefähr 10 Zeichenfolgen. Die meisten Zeichenfolgen in einer bestimmten Liste sind sehr ähnlich, obwohl einige Zeichenfolgen (selten) völlig unabhängig von den anderen sind und einige Zeichenfolgen irrelevante Wörter enthalten. Sie können als verrauschte Variationen einer kanonischen Saite betrachtet werden. Ich suche einen Algorithmus oder eine Bibliothek, die jede Liste in diese kanonische Zeichenfolge konvertiert.
Hier ist eine solche Liste.
- Star Wars: Episode IV Eine neue Hoffnung | StarWars.com
- Star Wars Episode IV - Eine neue Hoffnung (1977)
- Star Wars: Episode IV - Eine neue Hoffnung - faule Tomaten
- Sieh dir Star Wars: Episode IV - Eine neue Hoffnung online kostenlos an
- Star Wars (1977) - Größte Filme
- [REC] 4 Poster verspricht Tod durch Außenbordmotor - SciFiNow
Für diese Liste wäre jede Zeichenfolge ^Star Wars:? Episode IV (- )?A New Hope$
akzeptabel, die mit dem regulären Ausdruck übereinstimmt .
Ich habe mir Andrew Ngs Kurs über maschinelles Lernen auf Coursera angesehen, aber ich konnte kein ähnliches Problem finden.