Angenommen, ich möchte einen Klassifizierer lernen, der einen Vektor von Zahlen als Eingabe verwendet und eine Klassenbezeichnung als Ausgabe gibt. Meine Trainingsdaten bestehen aus einer großen Anzahl von Eingabe-Ausgabe-Paaren.
Wenn ich jedoch einige neue Daten teste, sind diese Daten normalerweise nur teilweise vollständig. Wenn der Eingabevektor beispielsweise die Länge 100 hat, können nur 30 der Elemente Werte erhalten, und der Rest ist "unbekannt".
Betrachten Sie als Beispiel die Bilderkennung, wenn bekannt ist, dass ein Teil des Bildes verdeckt ist. Oder betrachten Sie die Klassifizierung im allgemeinen Sinne, wenn bekannt ist, dass ein Teil der Daten beschädigt ist. In allen Fällen weiß ich genau, welche Elemente im Datenvektor die unbekannten Teile sind.
Ich frage mich, wie ich einen Klassifikator lernen kann, der für diese Art von Daten funktioniert. Ich könnte die "unbekannten" Elemente einfach auf eine Zufallszahl setzen, aber da es oft mehr unbekannte Elemente als bekannte gibt, klingt dies nicht nach einer guten Lösung. Oder ich könnte Elemente in den Trainingsdaten zufällig in "unbekannt" ändern und mit diesen anstatt mit den vollständigen Daten trainieren, aber dies könnte eine erschöpfende Stichprobe aller Kombinationen bekannter und unbekannter Elemente erfordern.
Insbesondere denke ich über neuronale Netze nach, bin aber offen für andere Klassifikatoren.
Irgendwelche Ideen? Vielen Dank!