Das Problem
Ich versuche, die 3D-Pose einer Person abzuschätzen, die mit einer einzelnen Kamera und 5 abgenutzten IMUs (Extremitäten der Extremitäten und oberer Rücken) beobachtet wird. Die Kamerarahmen werden in formbasierte Merkmalsvektoren konvertiert, und die IMUs liefern jeweils 4D-Quaternionsdarstellungen ihrer Ausrichtung.
Ich habe die 3D-Pose mit jeder Modalität wiederhergestellt, indem ich eine Zuordnung vom Eingabe-Feature-Raum zum Ausgabe-Pose-Raum gelernt habe. Jetzt möchte ich bessere Ergebnisse erzielen, indem ich beide Modalitäten auf irgendeine Weise durch Sensorfusion kombiniere.
Ich habe versucht, die Merkmalsvektoren jeder Modalität anzuhängen und auch einen gewichteten Durchschnitt ihrer Ausgaben zu verwenden. Dies sind sehr einfache Ansätze, die im Durchschnitt nur zu sehr geringen Verbesserungen führten.
Frage
Welche anderen Ansätze kann ich versuchen, diese beiden unangemessenen Datenquellen zu kombinieren?
Gibt es eine Vorverarbeitung für die Funktionen, die durchgeführt werden sollten?
Hinweis: Ich bevorzuge es, wenn möglich weiterhin einen lernbasierten Ansatz zu verwenden. (dh ich möchte die Physik / Kinematik / etc nicht explizit modellieren)