Ich habe eine Gruppe von n Mengen, für die ich eine Art "Eindeutigkeit" oder "Ähnlichkeit" -Wert berechnen muss. Ich habe mich für den Jaccard-Index als geeignete Metrik entschieden. Leider arbeitet der Jaccard-Index nur mit zwei Sätzen gleichzeitig. Um die Ähnlichkeit zwischen allen Sätzen zu berechnen , werden Jaccard-Berechnungen benötigt.
(Wenn es hilft, liegt normalerweise zwischen 10 und 10000, und jede Menge enthält durchschnittlich 500 Elemente. Letztendlich ist es mir auch egal, wie ähnlich zwei spezifische Mengen sind - es ist mir vielmehr nur wichtig, was die interne Ähnlichkeit ist der gesamten Gruppe von Mengen ist. (Mit anderen Worten, der Mittelwert (oder zumindest eine ausreichend genaue Annäherung an den Mittelwert) aller Jaccard-Indizes in der Gruppe)
Zwei Fragen:
- Gibt es eine Möglichkeit, den Jaccard-Index weiterhin ohne die Komplexität von ?
- Gibt es eine bessere Methode zur Berechnung der Ähnlichkeit / Eindeutigkeit von Mengen für eine Gruppe von Mengen als die oben vorgeschlagene?