Meine Frage mag albern sein. Also werde ich mich im Voraus entschuldigen.
Ich habe versucht, das von der Stanford NLP-Gruppe vorbereitete GLOVE-Modell zu verwenden ( Link ). Ich bemerkte jedoch, dass meine Ähnlichkeitsergebnisse einige negative Zahlen zeigten.
Das veranlasste mich sofort, mir die Wortvektordatendatei anzusehen. Anscheinend durften die Werte in den Wortvektoren negativ sein. Das erklärte, warum ich negative Kosinusähnlichkeiten sah.
Ich bin an das Konzept der Kosinusähnlichkeit von Frequenzvektoren gewöhnt, deren Werte in [0, 1] begrenzt sind. Ich weiß, dass das Punktprodukt und die Kosinusfunktion je nach Winkel zwischen Vektor positiv oder negativ sein können. Aber es fällt mir wirklich schwer, diese negative Kosinusähnlichkeit zu verstehen und zu interpretieren.
Wenn ich beispielsweise ein Wortpaar mit einer Ähnlichkeit von -0,1 habe, sind sie weniger ähnlich als ein anderes Paar mit einer Ähnlichkeit von 0,05? Wie wäre es mit einem Vergleich der Ähnlichkeit von -0,9 mit 0,8?
Oder sollte ich nur den absoluten Wert der minimalen Winkeldifferenz von ? Absolutwert der Scores?
Vielen, vielen Dank.
An angular-type similarity coefficient between two vectors. It is like correlation, only without centering the vectors.
Der einzige Unterschied zwischen den beiden besteht darin, dass bei Korrelationsabweichungen (Momenten) - die kreuzmultipliziert werden - vom Mittelwert abweichen, während bei Cosinus-Abweichungen von der ursprünglichen 0 - dh die Werte so sind, wie sie sind .