Antworten:
Wortbeutel und Vektorraummodell beziehen sich auf verschiedene Aspekte der Charakterisierung eines Textkörpers wie eines Dokuments. Sie sind im Lehrbuch "Speech and Language Processing" von Jurafsky und Martin, 2009, in Abschnitt 23.1 zum Abrufen von Informationen gut beschrieben. Eine knappere Referenz ist "Introduction to Information Retrieval" von Manning, Raghavan und Schütze, 2008, im Abschnitt "Das Vektorraummodell für die Bewertung".
Bag-of-Words bezieht sich darauf, welche Art von Informationen Sie aus einem Dokument extrahieren können (nämlich Unigramm-Wörter). Das Vektorraummodell bezieht sich auf die Datenstruktur für jedes Dokument (nämlich einen Merkmalsvektor von Term- und Termgewichtspaaren). Beide Aspekte ergänzen sich.
Genauer:
Bag-of-Worte : Für ein bestimmtes Dokument, extrahieren Sie nur die Unigramm- Worte (auch bekannt als Begriffe) eine ungeordnete Liste von Worten zu erstellen. Kein POS-Tag, keine Syntax, keine Semantik, keine Position, keine Bigramme, keine Trigramme. Nur die Unigrammwörter selbst, so dass eine Reihe von Wörtern das Dokument darstellen. Also: Wortsack .
Vektorraummodell : Ausgehend von der Wortmenge, die Sie aus dem Dokument extrahiert haben, erstellen Sie einen Feature-Vektor für das Dokument, wobei jedes Feature ein Wort (Begriff) und der Wert des Features ein Termgewicht ist. Der Begriff Gewicht könnte sein:
Das gesamte Dokument ist somit ein Merkmalsvektor, und jeder Merkmalsvektor entspricht einem Punkt in einem Vektorraum . Das Modell für diesen Vektorraum ist so, dass es für jeden Begriff im Vokabular eine Achse gibt, und daher ist der Vektorraum V- dimensional, wobei V die Größe des Vokabulars ist. Der Vektor sollte dann konzeptionell auch V- dimensional sein und ein Merkmal für jeden Vokabularbegriff aufweisen. Da das Vokabular jedoch groß sein kann (in der Größenordnung von V = 100.000 Begriffe), enthält der Merkmalsvektor eines Dokuments normalerweise nur die Begriffe, die in diesem Dokument vorkommen, und lässt die Begriffe weg, die dies nicht getan haben. Ein solcher Merkmalsvektor wird als spärlich angesehen .
Eine beispielhafte Vektordarstellung eines Dokuments könnte daher folgendermaßen aussehen:
DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...
Dabei hat dieser Beispielvektor eine Dokument-ID (z. B. 42), ein Grund-Wahrheits-Label (z. B. Politik) und eine Liste von Merkmalen und Merkmalswerten, die Term & Term-Frequenzpaare umfassen. Hier ist zu sehen, dass das Wort "abwesend" in diesem Dokument zweimal vorkam.
Ist es so, dass Sie mit Bag of Words dem Matrixelement für Dokumentterme eine Worthäufigkeit zuweisen und im Vektorraummodell Matrixelemente für Dokumentterme ziemlich allgemein sind, solange Operationen (Punktprodukt) im Vektorraum sinnvoll sind (tf-idf-Gewichte, z Beispiel)?
Bag of Words ist eine Menge, die eindeutige Wörter als Tally darstellt. Der Termvektorraum ist ein spärlicher boolescher Vektor, der auch die Wortposition aufzeichnet. Meiner Ansicht nach.