Als «cosine-distance» getaggte Fragen

4
Alternativen zu TF-IDF und Cosine Ähnlichkeit beim Vergleich von Dokumenten unterschiedlicher Formate
Ich habe an einem kleinen, persönlichen Projekt gearbeitet, das die beruflichen Fähigkeiten eines Benutzers aufgreift und basierend auf diesen Fähigkeiten die für ihn idealste Karriere vorschlägt. Ich benutze eine Datenbank mit Stellenangeboten, um dies zu erreichen. Im Moment funktioniert der Code wie folgt: 1) Verarbeiten Sie den Text jeder Stellenanzeige, …

1
Berechnen Sie die Kosinusähnlichkeit in Apache Spark
Ich habe einen DataFrame mit IDF bestimmter Wörter berechnet. Zum Beispiel (10,[0,1,2,3,4,5],[0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) .... and so on Geben Sie nun eine Abfrage Q, ich kann die TF-IDF dieser Abfrage berechnen. Wie berechne ich die Kosinusähnlichkeit der Abfrage mit allen Dokumenten im Datenrahmen (es gibt fast eine Million Dokumente)? Ich könnte …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.