Jaccard Ähnlichkeit ist gegeben durch
sij=pp+q+r
woher,
p = Anzahl der Attribute positiv für beide Objekte
q = Anzahl der Attribute 1 für i und 0 für j
r = Anzahl der Attribute 0 für i und 1 für j
A⋅B∥A∥∥B∥
Einfach ausgedrückt, wird in Kosinusähnlichkeit die Anzahl der gemeinsamen Attribute durch die Gesamtanzahl der möglichen Attribute geteilt. Während in Jaccard Similarity die Anzahl der gemeinsamen Attribute durch die Anzahl der Attribute geteilt wird, die in mindestens einem der beiden Objekte vorhanden sind.
Und es gibt viele andere Ähnlichkeitsmaße mit jeweils eigenen Exzentrizitäten. Überlegen Sie sich bei der Entscheidung, welchen Sie verwenden möchten, einige repräsentative Fälle und ermitteln Sie, welcher Index die am besten verwendbaren Ergebnisse liefert, um Ihr Ziel zu erreichen.
Der Cosine-Index kann zur Identifizierung von Plagiaten verwendet werden, ist jedoch kein guter Index zur Identifizierung von Spiegelseiten im Internet. Während der Jaccard-Index ein guter Index zur Identifizierung von Spiegelseiten ist, ist er nicht so gut geeignet, um das Plagiat von Kopien von Teigwaren (innerhalb eines größeren Dokuments) zu erkennen.
Wenn Sie diese Indizes anwenden, müssen Sie sich eingehend mit Ihrem Problem befassen und herausfinden, wie Ähnlichkeiten definiert werden. Sobald Sie eine Definition festgelegt haben, können Sie einen Index kaufen.
Bearbeiten:
Früher hatte ich ein Beispiel in dieser Antwort enthalten, die letztendlich falsch war. Dank der vielen Benutzer, die darauf hingewiesen haben, habe ich das fehlerhafte Beispiel entfernt.