Ich habe nie wirklich einen guten Text oder Beispiele gefunden, wie man mit 'nicht existierenden' Daten für Eingaben in irgendeine Art von Klassifikator umgeht. Ich habe viel über fehlende Daten gelesen, aber was kann mit Daten getan werden, die in Bezug auf multivariate Eingaben nicht existieren können oder nicht. Ich verstehe, dass dies eine sehr komplexe Frage ist und je nach verwendeten Trainingsmethoden variieren wird ...
Zum Beispiel, wenn Sie versuchen, die Rundenzeit für mehrere Läufer mit guten genauen Daten vorherzusagen. Unter vielen Eingaben sind mögliche Variablen unter vielen:
- Eingangsvariable - Erstmaliger Läufer (J / N)
- Eingangsvariable - Vorherige Rundenzeit (0 - 500 Sekunden)
- Eingabevariable - Alter
- Eingangsvariable - Höhe. . . viele weitere Eingangsvariablen usw.
& Output Predictor - Voraussichtliche Laptime (0 - 500 Sekunden)
Eine 'fehlende Variable' für '2.Vorherige Rundenzeit' kann auf verschiedene Arten berechnet werden, aber '1. Der erste Läufer würde immer gleich N sein. Aber für 'NON EXISTENT DATA' für einen ersten Läufer (wobei '1. erster Läufer' = Y), welchen Wert / welche Behandlung sollte ich für '2 geben. Vorherige Rundenzeit '?
Zum Beispiel '2 zuweisen. Frühere Rundenzeiten von -99 oder 0 können die Verteilung dramatisch verzerren und es so aussehen lassen, als hätte ein neuer Läufer eine gute Leistung erbracht.
Meine aktuellen Trainingsmethoden waren logistische Regression, SVM, NN und Entscheidungsbäume