Ich habe eine ziemlich kleine Datei mit 100 Millionen Zeilen und 30 Spalten oder so, auf der ich mehrere Regressionen ausführen möchte. Ich habe speziellen Code zum Ausführen der Regressionen für die gesamte Datei, aber ich möchte zufällige Stichproben aus der Datei ziehen und sie in R ausführen. Die Strategie lautet: Zufällige Stichprobe von N Zeilen aus der Datei ohne Ersetzung führen Sie eine Regression aus und Speichern Sie die interessierenden Koeffizienten. Wiederholen Sie diesen Vorgang M-mal mit verschiedenen Stichproben für jeden Koeffizienten. Berechnen Sie die Mittelwerte und Standardfehler der Koeffizienten über M Läufe.
Ich möchte den über M berechneten Mittelwert als Schätzung der Werte der für den gesamten Datensatz berechneten Koeffizienten und die Standardfehler der Mittelwerte als Schätzungen der Standardfehler der für den gesamten Datensatz berechneten Koeffizienten interpretieren.
Experimente zeigen, dass dies eine vielversprechende Strategie ist, aber ich bin mir über die zugrunde liegende Theorie nicht sicher. Sind meine Schätzer konsistent effizient und unvoreingenommen? Wenn sie konsistent sind, wie schnell sollten sie konvergieren? Welche Kompromisse zwischen M und N sind am besten?
Ich würde es sehr begrüßen, wenn mich jemand auf die Papiere, Bücher usw. mit der relevanten Theorie hinweisen könnte.
Viele Grüße und vielen Dank,
Joe Rickert