Als «tokenize» getaggte Fragen

Beim Tokenisieren wird eine Zeichenfolge in diskrete Elemente aufgeteilt, die als Token bezeichnet werden.


16
Analysieren (Teilen) eines Strings in C ++ mit dem String-Trennzeichen (Standard-C ++)
Ich analysiere einen String in C ++ wie folgt: using namespace std; string parsed,input="text to be parsed"; stringstream input_stringstream(input); if (getline(input_stringstream,parsed,' ')) { // do some processing. } Das Parsen mit einem einzelnen Zeichenbegrenzer ist in Ordnung. Aber was ist, wenn ich eine Zeichenfolge als Trennzeichen verwenden möchte? Beispiel: Ich …
361 c++  parsing  split  token  tokenize 



10
Scanner vs. StringTokenizer vs. String.Split
Ich habe gerade die Scanner-Klasse von Java kennengelernt und frage mich jetzt, wie sie mit dem StringTokenizer und String.Split verglichen wird. Ich weiß, dass StringTokenizer und String.Split nur für Strings funktionieren. Warum sollte ich den Scanner für einen String verwenden? Ist der Scanner nur als One-Stop-Shopping für die Aufteilung gedacht?

4
Suchen Sie nach einer klaren Definition dessen, was ein "Tokenizer", "Parser" und "Lexer" sind und wie sie miteinander in Beziehung stehen und verwendet werden?
Ich suche nach einer klaren Definition dessen, was ein "Tokenizer", "Parser" und "Lexer" sind und wie sie miteinander zusammenhängen (z. B. verwendet ein Parser einen Tokenizer oder umgekehrt)? Ich muss ein Programm erstellen, das c / h-Quelldateien durchläuft, um Datendeklarationen und Definitionen zu extrahieren. Ich habe nach Beispielen gesucht und …
151 parsing  lexer  tokenize 

5
Kann eine Zeile Python-Code die Verschachtelungsebene für Einrückungen kennen?
Von so etwas: print(get_indentation_level()) print(get_indentation_level()) print(get_indentation_level()) Ich möchte so etwas bekommen: 1 2 3 Kann sich der Code auf diese Weise selbst lesen? Ich möchte nur, dass die Ausgabe der stärker verschachtelten Teile des Codes stärker verschachtelt ist. Auf die gleiche Weise, wie dies das Lesen von Code erleichtert, würde …


11
Wie entferne ich die Interpunktion mit dem NLTK-Tokenizer?
Ich fange gerade an, NLTK zu verwenden, und ich verstehe nicht ganz, wie man eine Liste von Wörtern aus Text erhält. Wenn ich benutze nltk.word_tokenize(), bekomme ich eine Liste mit Wörtern und Satzzeichen. Ich brauche stattdessen nur die Worte. Wie kann ich Interpunktion loswerden? Funktioniert auch word_tokenizenicht mit mehreren Sätzen: …
125 python  nlp  tokenize  nltk 

13
Aufteilen von Zeichenfolgen in mehrere Zeilen in Oracle
Ich weiß, dass dies bis zu einem gewissen Grad mit PHP und MYSQL beantwortet wurde, aber ich habe mich gefragt, ob mir jemand den einfachsten Ansatz zum Aufteilen einer Zeichenfolge (durch Kommas getrennt) in mehrere Zeilen in Oracle 10g (vorzugsweise) und 11g beibringen kann. Die Tabelle lautet wie folgt: Name …
104 sql  string  oracle  plsql  tokenize 

4
Wie bekomme ich ein Token von einem Lucene TokenStream?
Ich versuche, Apache Lucene zum Tokenisieren zu verwenden, und ich bin verblüfft über den Prozess, Tokens von a zu erhalten TokenStream. Das Schlimmste ist, dass ich mir die Kommentare in den JavaDocs ansehe, die meine Frage beantworten. http://lucene.apache.org/java/3_0_1/api/core/org/apache/lucene/analysis/TokenStream.html#incrementToken%28%29 Irgendwie soll ein AttributeSourceverwendet werden, anstatt Tokens. Ich bin total ratlos. Kann …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.