Nicht sicher, ob dies die richtige Stack-Site ist, aber es geht los.
Wie funktioniert die .similiarity-Methode?
Wow spaCy ist großartig! Das tfidf-Modell könnte einfacher sein, aber w2v mit nur einer Codezeile ?!
In seinem 10-zeiligen Tutorial zu spaCy andrazhribernik zeigen wir die .similarity-Methode, die für Token, Sents, Word Chunks und Docs ausgeführt werden kann.
Nach nlp = spacy.load('en')
und doc = nlp(raw_text)
wir können .similarity Abfragen zwischen Token und Brocken tun. Was wird bei dieser .similarity
Methode jedoch hinter den Kulissen berechnet?
SpaCy hat bereits die unglaublich einfache Methode .vector
, die den vom GloVe-Modell trainierten w2v-Vektor berechnet (wie cool wäre eine .tfidf
oder eine .fasttext
Methode?).
Berechnet das Modell einfach die Kosinusähnlichkeit zwischen diesen beiden Vektoren w2v, .vector oder vergleicht es eine andere Matrix? Die Einzelheiten sind in der Dokumentation nicht klar ; Jede Hilfe dankbar!