Bei einer gegebenen Folge von Eingaben muss festgestellt werden, ob diese Folge eine bestimmte gewünschte Eigenschaft hat. Die Eigenschaft kann nur wahr oder falsch sein, dh es gibt nur zwei mögliche Klassen, zu denen eine Sequenz gehören kann.
Die genaue Beziehung zwischen der Sequenz und der Eigenschaft ist unklar, aber ich glaube, dass sie sehr konsistent ist und sich für eine statistische Klassifizierung eignet. Ich habe eine große Anzahl von Fällen, in denen der Klassifikator trainiert werden muss, obwohl es in dem Sinne, dass mit einer geringen Wahrscheinlichkeit eine Sequenz in diesem Trainingssatz der falschen Klasse zugeordnet wird, leicht verrauscht sein kann.
Beispiel Trainingsdaten:
Sequence 1: (7 5 21 3 3) -> true
Sequence 2: (21 7 5 1) -> true
Sequence 3: (12 21 7 5 11 1) -> false
Sequence 4: (21 5 7 1) -> false
...
Grob ausgedrückt wird die Eigenschaft durch die Menge der Werte in der Sequenz bestimmt (z. B. bedeutet das Vorhandensein einer "11", dass die Eigenschaft mit ziemlicher Sicherheit falsch ist) sowie durch die Reihenfolge der Werte (z. B. "21 7 5) "erhöht die Wahrscheinlichkeit, dass die Eigenschaft wahr ist, erheblich).
Nach dem Training sollte ich in der Lage sein, dem Klassifikator eine zuvor nicht sichtbare Sequenz zuzuweisen (1 21 7 5 3)
, und er sollte sein Vertrauen ausgeben, dass die Eigenschaft wahr ist. Gibt es einen bekannten Algorithmus zum Trainieren eines Klassifikators mit dieser Art von Ein- / Ausgängen?
Ich habe den naiven Bayes-Klassifikator in Betracht gezogen (der nicht wirklich an die Tatsache anpassbar ist, dass die Reihenfolge wichtig ist, zumindest nicht, ohne die Annahme, dass die Eingaben unabhängig sind, ernsthaft zu brechen). Ich habe auch den Ansatz des Hidden-Markov-Modells untersucht, der nicht anwendbar zu sein scheint, da nur eine Ausgabe statt einer Ausgabe pro Eingabe verfügbar ist. Was habe ich verpasst?