Sei eine Funktion, die wir als Ähnlichkeitsfunktion bezeichnen . Beispiele für Ähnlichkeitsfunktionen sind Kosinusabstand, Norm, Hamming-Abstand, Jaccard-Ähnlichkeit usw.
Betrachten Sie binäre Vektoren der Länge : .
Unser Ziel ist es, ähnliche Vektoren zu gruppieren. Formal wollen wir einen Ähnlichkeitsgraphen berechnen, bei dem Knoten die Vektoren sind und Kanten Vektoren darstellen, die ähnlich sind ( ).
und sind sehr große Zahlen, und der Vergleich von zwei Längen- Vektoren ist teuer. Wir können nicht alle Brute-Force- -Operationen durchführen. Wir wollen das Ähnlichkeitsdiagramm mit deutlich weniger Operationen berechnen.
Ist das möglich? Wenn nicht, können wir eine Annäherung an den Graphen berechnen, der alle Kanten im Ähnlichkeitsgraphen sowie möglicherweise höchstens andere Kanten enthält?