Wie bekomme ich ein Token von einem Lucene TokenStream?

Question 1

Ich versuche, Apache Lucene zum Tokenisieren zu verwenden, und ich bin verblüfft über den Prozess, Tokens von a zu erhalten TokenStream.

Das Schlimmste ist, dass ich mir die Kommentare in den JavaDocs ansehe, die meine Frage beantworten.

http://lucene.apache.org/java/3_0_1/api/core/org/apache/lucene/analysis/TokenStream.html#incrementToken%28%29

Irgendwie soll ein AttributeSourceverwendet werden, anstatt Tokens. Ich bin total ratlos.

Kann jemand erklären, wie man tokenartige Informationen von einem TokenStream erhält?

Question 2

Ja, es ist ein wenig verworren (im Vergleich zum guten alten Weg), aber das sollte es tun:

TokenStream tokenStream = analyzer.tokenStream(fieldName, reader);
OffsetAttribute offsetAttribute = tokenStream.getAttribute(OffsetAttribute.class);
TermAttribute termAttribute = tokenStream.getAttribute(TermAttribute.class);

while (tokenStream.incrementToken()) {
    int startOffset = offsetAttribute.startOffset();
    int endOffset = offsetAttribute.endOffset();
    String term = termAttribute.term();
}

Edit: Der neue Weg

Laut Donotello wurde TermAttributezugunsten von abgelehnt CharTermAttribute. Laut jpountz (und Lucenes Dokumentation) addAttributeist dies wünschenswerter als getAttribute.

TokenStream tokenStream = analyzer.tokenStream(fieldName, reader);
OffsetAttribute offsetAttribute = tokenStream.addAttribute(OffsetAttribute.class);
CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);

tokenStream.reset();
while (tokenStream.incrementToken()) {
    int startOffset = offsetAttribute.startOffset();
    int endOffset = offsetAttribute.endOffset();
    String term = charTermAttribute.toString();
}

Question 3

So sollte es sein (eine saubere Version von Adams Antwort):

TokenStream stream = analyzer.tokenStream(null, new StringReader(text));
CharTermAttribute cattr = stream.addAttribute(CharTermAttribute.class);
stream.reset();
while (stream.incrementToken()) {
  System.out.println(cattr.toString());
}
stream.end();
stream.close();

Question 4

Für die neueste Version von Lucene 7.3.1

    // Test the tokenizer
    Analyzer testAnalyzer = new CJKAnalyzer();
    String testText = "Test Tokenizer";
    TokenStream ts = testAnalyzer.tokenStream("context", new StringReader(testText));
    OffsetAttribute offsetAtt = ts.addAttribute(OffsetAttribute.class);
    try {
        ts.reset(); // Resets this stream to the beginning. (Required)
        while (ts.incrementToken()) {
            // Use AttributeSource.reflectAsString(boolean)
            // for token stream debugging.
            System.out.println("token: " + ts.reflectAsString(true));

            System.out.println("token start offset: " + offsetAtt.startOffset());
            System.out.println("  token end offset: " + offsetAtt.endOffset());
        }
        ts.end();   // Perform end-of-stream operations, e.g. set the final offset.
    } finally {
        ts.close(); // Release resources associated with this stream.
    }

Referenz: https://lucene.apache.org/core/7_3_1/core/org/apache/lucene/analysis/package-summary.html

Question 5

Es gibt zwei Variationen in der OP-Frage:

Was ist "der Prozess, um Token von einem TokenStream zu erhalten"?
"Kann jemand erklären, wie man tokenartige Informationen von einem TokenStream erhält?"

Aktuelle Versionen der Lucene-Dokumentation zum BeispielToken (Hervorhebung hinzugefügt):

HINWEIS: Ab Version 2.9 ist es nicht mehr erforderlich , Token zu verwenden. Mit der neuen TokenStream-API kann sie als Convenience-Klasse verwendet werden, die alle Attribute implementiert. Dies ist besonders nützlich, um einfach von der alten zur neuen TokenStream-API zu wechseln.

Und TokenStreamsagt seine API:

... ist von Token-basiert zu Attribut-basiert übergegangen. Die bevorzugte Methode zum Speichern der Informationen eines Tokens ist die Verwendung von AttributeImpls.

Die anderen Antworten auf diese Frage beziehen sich auf # 2 oben: Wie man tokenartige Informationen von einem TokenStreamauf die "neue" empfohlene Weise unter Verwendung von Attributen erhält . Beim Lesen der Dokumentation schlagen die Lucene-Entwickler vor, dass diese Änderung teilweise vorgenommen wurde, um die Anzahl der gleichzeitig erstellten Einzelobjekte zu verringern.

Aber wie einige Leute in den Kommentaren dieser Antworten betont haben, antworten sie nicht direkt auf Nummer 1: Wie bekommt man eine, Tokenwenn man diesen Typ wirklich will / braucht?

Mit der gleichen API-Änderung, die TokenStreamein AttributeSource, Tokenjetzt implementiert Attributeund mit TokenStream.addAttribute verwendet werden kann, genau wie die anderen Antworten für CharTermAttributeund OffsetAttribute. Also haben sie diesen Teil der ursprünglichen Frage wirklich beantwortet, sie haben ihn einfach nicht gezeigt.

Es ist wichtig, dass Sie mit diesem Ansatz zwar Tokenwährend der Schleife zugreifen können , es sich jedoch immer noch um ein einzelnes Objekt handelt, unabhängig davon, wie viele logische Token sich im Stream befinden. Jeder Aufruf von incrementToken()ändert den Status des Tokenzurückgegebenen von addAttribute; Wenn Sie also eine Sammlung verschiedener TokenObjekte erstellen möchten, die außerhalb der Schleife verwendet werden sollen, müssen Sie zusätzliche Arbeit leisten, um ein neues Token Objekt als (tiefe?) Kopie zu erstellen .