"A" ist mit "B" und "C" verwandt. Wie zeige ich, dass "B" und "C" in diesem Zusammenhang auch zusammenhängen könnten?
Beispiel:
Hier sind ein paar Schlagzeilen über ein aktuelles Broadway-Stück:
- David Mamets Glengarry Glen Ross mit Al Pacino wird am Broadway eröffnet
- Al Pacino in 'Glengarry Glen Ross': Was dachten die Kritiker?
- Al Pacino verdient glanzlose Kritiken für den Broadway-Turn
- Theaterkritik: Glengarry Glen Ross verkauft seine Stars hart
- Glengarry Glen Ross; Hey, wer hat die Klieg Lights getötet?
Problem:
Wenn Sie einen Fuzzy-String-Abgleich über diese Datensätze durchführen, werden einige Beziehungen hergestellt, andere jedoch nicht, obwohl ein menschlicher Leser sie in viel größeren Datensätzen aus dem Kontext heraussuchen könnte.
Wie finde ich die Beziehung, die nahe legt, dass # 3 mit # 4 zusammenhängt? Beide können leicht mit # 1 verbunden werden, aber nicht miteinander.
Gibt es einen (Googlable) Namen für diese Art von Daten oder Struktur? Nach was für einem Algorithmus suche ich?
Tor:
Bei 1.000 Schlagzeilen schlägt ein System automatisch vor, dass es sich bei diesen 5 Einträgen wahrscheinlich um dasselbe handelt.
Um ehrlich zu sein, es ist so lange her, dass ich programmiert habe. Ich bin ratlos, wie ich dieses Problem richtig artikulieren kann. (Ich weiß nicht was ich nicht weiß, wenn das Sinn macht).
Dies ist ein persönliches Projekt und ich schreibe es in Python. Vielen Dank im Voraus für jede Hilfe, Ratschläge und Hinweise!