Ich arbeite an einer Anwendung, für die eine sehr große Datenbank mit n-Gramm erstellt werden muss, die in einem großen Textkorpus vorhanden ist.
Ich benötige drei effiziente Operationstypen: Nachschlagen und Einfügen, indiziert durch das n-Gramm selbst, und Abfragen aller n-Gramme, die ein Sub-n-Gramm enthalten.
Das klingt für mich so, als ob die Datenbank ein gigantischer Dokumentenbaum sein sollte und Dokumentendatenbanken, z. B. Mongo, in der Lage sein sollten, die Arbeit gut zu erledigen, aber ich habe sie nie im Maßstab verwendet.
In Kenntnis des Stack Exchange-Fragenformats möchte ich klarstellen, dass ich nicht nach Vorschlägen für bestimmte Technologien frage, sondern nach einer Art Datenbank, nach der ich Ausschau halten sollte, um so etwas in großem Maßstab zu implementieren.