Angenommen, wir erhalten einen Satz von Daten der Form und . Wir haben die Aufgabe, basierend auf den Werten von vorherzusagen . Wir schätzen zwei Regressionen, bei denen: ( y , x 1 , x 2 , ⋯ , x n - 1 ) y x y
Wir schätzen auch eine Regression, die Werte von basierend auf Werten von vorhersagt : ( x 1 , ⋯ , x n - 1 ) x n = f 3 ( x 1 , ⋯ , x n - 1 )
Angenommen, wir erhalten jetzt Werte von , dann hätten wir zwei verschiedene Methoden, um vorherzusagen :y
Welches wäre im Allgemeinen besser?
Ich vermute, dass die erste Gleichung besser wäre, weil sie Informationen aus den beiden Formen von Datenpunkten verwendet, während die zweite Gleichung nur Informationen aus Datenpunkten verwendet, die Prädiktorwerte haben. Meine Ausbildung in Statistik ist begrenzt und daher möchte ich professionellen Rat einholen.
Was ist im Allgemeinen der beste Ansatz für Daten mit unvollständigen Informationen? Mit anderen Worten, wie können wir die meisten Informationen aus Daten extrahieren, die nicht in allen Dimensionen Werte haben ?