Ich habe eine Menge Dokumente, die eine Menge Schlüsselwertpaare enthalten. Der Schlüssel ist möglicherweise nicht eindeutig, sodass möglicherweise mehrere Schlüssel desselben Typs mit unterschiedlichen Werten vorhanden sind.
Ich möchte die Ähnlichkeit der Schlüssel zwischen 2 Dokumenten vergleichen. Insbesondere die String-Ähnlichkeit dieser Werte. Ich denke darüber nach, so etwas wie den Smith-Waterman-Algorithmus zu verwenden, um die Ähnlichkeit zu vergleichen.
Also habe ich ein Bild davon gezeichnet, wie ich über die Darstellung der Daten nachdenke -
Die Werte in den Zellen sind das Ergebnis des Smith-Waterman-Algorithmus (oder einer anderen String-Ähnlichkeitsmetrik).
Bild, dass diese Matrix einen Schlüsseltyp von "Dingen" darstellt Ich muss dann die Ähnlichkeitsbewertung "Dinge" zu einem Vektor von 0 oder 1 hinzufügen. Das ist in Ordnung.
Was ich nicht herausfinden kann, ist, wie ich feststelle, ob die Matrix ähnlich oder nicht ähnlich ist - idealerweise möchte ich die Matrix in eine Zahl zwischen 0 und 1 konvertieren und dann einfach einen Schwellenwert festlegen, um sie entweder als 0 oder als zu bewerten 1.
Irgendwelche Ideen, wie ich eine Partitur der Matrix erstellen kann? Kennt jemand irgendwelche Algorithmen, die diese Art von Dingen machen (offensichtlich sind Dinge wie die Funktionsweise von Smith Waterman anwendbar).