Was sind einige Standardmethoden zur Berechnung der Entfernung zwischen einzelnen Suchanfragen?


8

Ich stellte eine ähnliche Frage nach der Entfernung zwischen "Dokumenten" (Wikipedia-Artikel, Nachrichten usw.). Ich habe dies zu einer separaten Frage gemacht, da Suchanfragen erheblich kleiner als Dokumente und erheblich lauter sind. Ich weiß daher nicht (und bezweifle), ob hier die gleichen Entfernungsmetriken verwendet werden würden.

Entweder werden lexikalische Vanille-Distanzmetriken oder semantische Distanzmetriken nach dem Stand der Technik bevorzugt, wobei letztere stärker bevorzugt werden.


2
Suchanfragen sind nicht lauter (es gibt nur sehr wenige Wörter in einer Abfrage, die nicht wirklich mit der Suche zusammenhängen), sondern können Rechtschreibfehler, Mehrdeutigkeiten, Slang und andere Dinge enthalten, mit denen Sie sich separat befassen müssen. Über diese Probleme hinaus können Abfragen und Dokumente auf die gleiche Weise verarbeitet werden.
Freund

Vielleicht können Sie Schlüsselwortvektoren aus Abfragen extrahieren und dann den Abstand zwischen diesen Vektoren berechnen und wie die Ähnlichkeit definiert ist. Ich denke, dies ist immer noch eine offene Frage :)
Crazyminer

1
Ihre beiden Fragen sind weit gefasst, subjektiv und erfordern erhebliche Wartung, um nicht veraltet zu werden. Da die Community diese Art von Frage zu schätzen weiß, kann es sinnvoll sein, eine davon zu behalten - aber sicherlich nicht beide, wenn diese Diskussion eine richtige Teilmenge der anderen ist. Bitte überprüfen Sie Welche Arten von Fragen sollte ich vermeiden?
Air

Danke, AirThomas! Der Beitrag von ffriend scheint sicherlich darauf hinzudeuten, dass dies eindeutig ein Duplikat ist. Ich werde sehen, was ich dagegen tun kann.
Matt

Antworten:


4

Nach meiner Erfahrung können nur einige Klassen von Abfragen nach lexikalischen Merkmalen klassifiziert werden (aufgrund der Mehrdeutigkeit der natürlichen Sprache). Stattdessen können Sie versuchen, boolesche Suchergebnisse (Websites oder Segmente von Websites, keine Dokumente ohne Rangfolge) als Merkmale für die Klassifizierung zu verwenden (stattdessen für Wörter). Dieser Ansatz eignet sich gut für Klassen, in denen eine Abfrage eine große lexikalische Mehrdeutigkeit aufweist, es jedoch viele gute Websites gibt, die für die Abfrage relevant sind (z. B. Filme, Musik, kommerzielle Abfragen usw.).

Für die Offline-Klassifizierung können Sie auch LSI für die Abfrage-Site-Matrix durchführen. Weitere Informationen finden Sie im Buch "Einführung in das Abrufen von Informationen".


In einem ähnlichen Zusammenhang habe ich dieses relevante Papier gefunden .
Matt

4

Die Kosinus-Ähnlichkeitsmetrik steuert die Dokumentlänge gut (wenn nicht sogar perfekt). Daher sollte der Vergleich der Ähnlichkeit von 2 Dokumenten oder 2 Abfragen unter Verwendung der Kosinus-Metrik und der tf-IDF-Gewichte für die Wörter in beiden Fällen gut funktionieren. Ich würde auch empfehlen, LSA zuerst für die IDF-Gewichte durchzuführen und dann den Kosinusabstand \ Ähnlichkeiten zu berechnen.

Wenn Sie versuchen, eine Suchmaschine zu erstellen, würde ich empfehlen, eine kostenlose Open-Source-Suchmaschine wie Solr oder Elastic Search oder nur die Raw-Lucene-Bibliotheken zu verwenden, da diese den größten Teil der Arbeit für Sie erledigen und über gut integrierte Methoden verfügen Behandlung der Abfrage zur Dokumentation des Ähnlichkeitsproblems.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.