Buchstaben-N-Gramme werden aus mehreren Gründen anstelle von Wörtern verwendet:
1) Die Liste der Wörter, die für eine bestimmte Sprache benötigt werden, ist ziemlich groß, vielleicht 100.000, wenn Sie schnell, schneller, schneller, schneller, schneller, schneller, schneller, ... als alle verschiedenen Wörter betrachten. Für 80 Sprachen benötigen Sie etwa das 80-fache an Wörtern, was viel Platz einnimmt - über 50 Megabyte.
2) Die Anzahl der Buchstaben-Trigramme für ein Alphabet mit 26 Buchstaben beträgt 26 ** 3 oder ungefähr 17.000 und für Quadgramme (N = 4) ungefähr 450.000, die ALLE Sprachen abdecken, die dieses Alphabet verwenden. Ähnliche, aber etwas größere Zahlen für N-Gramme in größeren Buchstaben von 30-100 Zeichen. Für die CJK-Sprachen mit mehr als 4000 Buchstaben im Han-Skript sind Unigramme (N = 1) ausreichend. Für einige Unicode-Skripte gibt es nur eine Sprache pro Skript (Griechisch, Armenisch), sodass keine Buchstabenkombinationen erforderlich sind (sogenannte Null-Gramm-Werte N = 0).
3) Bei Wörtern haben Sie überhaupt keine Informationen, wenn Sie ein Wort außerhalb des Wörterbuchs eingeben, während Sie bei Buchstaben-N-Gramm häufig mindestens einige nützliche Buchstabenkombinationen innerhalb dieses Wortes haben.
CLD2 verwendet Quadgramme für die meisten Unicode-Skripte (Alphabete), einschließlich Latein, Kyrillisch und Arabisch, Unigramme für die CJK-Skripte, Nullgramme für andere Skripte und enthält außerdem eine begrenzte Anzahl von ziemlich unterscheidbaren und ziemlich häufigen vollständigen Wörtern und Wortpaaren zur Unterscheidung in schwierigen Gruppen statistisch ähnlicher Sprachen wie Indonesisch und Malaiisch. Buchstabenbigramme und Trigramme sind möglicherweise hilfreich, um zwischen einer kleinen Anzahl von Sprachen zu unterscheiden (ungefähr acht, siehe https://docs.google.com/document/d/1NtErs467Ub4yklEfK0C9AYef06G_1_9NHL5dPuKIH7k/edit), sind aber für die Unterscheidung von Dutzenden von Sprachen unbrauchbar. Daher verwendet CLD2 Quadgramme und ordnet jeder Buchstabenkombination die drei wahrscheinlichsten Sprachen zu, die diese Kombination verwenden. Auf diese Weise können 80 Sprachen mit ca. 1,5 MB Tabellen und 160 Sprachen mit ca. 5 MB Tabellen ausführlicher behandelt werden.