Ich habe über ein Jahr lang ohne große Fortschritte versucht, dieses Problem zu lösen. Es ist Teil eines Forschungsprojekts, das ich mache, aber ich werde es anhand eines von mir erfundenen Beispiels veranschaulichen, da der eigentliche Bereich des Problems etwas verwirrend ist (Eye-Tracking).
Sie sind ein Flugzeug, das ein feindliches Schiff verfolgt, das sich über den Ozean bewegt. Sie haben also eine Reihe von (x, y, Zeit-) Koordinaten des Schiffes gesammelt. Sie wissen, dass ein verstecktes U-Boot mit dem Schiff fährt, um es zu schützen, aber während es eine Wechselbeziehung zwischen deren Positionen gibt, wandert das U-Boot häufig vom Schiff weg Welt gelegentlich. Sie wollen den Weg des U-Bootes vorhersagen, aber leider ist er Ihnen verborgen.
Aber einen Monat im April merkt man, dass das U-Boot vergisst, sich zu verstecken, so dass Sie während 1.000 Fahrten eine Reihe von Koordinaten für das U-Boot und das Schiff haben. Anhand dieser Daten möchten Sie ein Modell erstellen, um den Pfad des verborgenen U-Bootes unter Berücksichtigung der Schiffsbewegungen vorherzusagen. Die naive Grundlinie würde lauten: "U-Boot-Position erraten =" Schiffs-aktuelle Position ". Aus den April-Daten, in denen das U-Boot sichtbar war, geht jedoch hervor, dass das U-Boot tendenziell etwas vor dem Schiff ist, also" U-Boot-Position " rate = Schiffsposition in 1 Minute "ist eine noch bessere Schätzung. Darüber hinaus zeigen die April-Daten, dass das U-Boot, wenn es längere Zeit im Wasser bleibt, wahrscheinlich weit entfernt ist, um die Küstengewässer zu patrouillieren. Es gibt andere Muster natürlich.
Wie würden Sie dieses Modell angesichts der Aprildaten als Trainingsdaten erstellen, um den Pfad des U-Boots vorherzusagen? Meine derzeitige Lösung ist eine lineare Ad-hoc-Regression, bei der die Faktoren "Fahrzeit", "Schiffskoordinate x", "1 Tag im Leerlauf" usw. sind und dann R die Gewichte ermitteln und eine Kreuzvalidierung durchführen . Aber ich würde es wirklich lieben, diese Faktoren automatisch aus den April-Daten zu generieren. Auch ein Modell, das Sequenz oder Zeit verwendet, wäre schön, da die lineare Regression dies nicht tut und ich denke, dass es relevant ist.
Vielen Dank für das Lesen und ich würde gerne etwas klarstellen.