Regressionen für Stichproben aus einer sehr großen Datei durchführen: Sind die Mittelwerte und SEs der Stichprobenkoeffizienten konsistente Schätzer?

8

Ich habe eine ziemlich kleine Datei mit 100 Millionen Zeilen und 30 Spalten oder so, auf der ich mehrere Regressionen ausführen möchte. Ich habe speziellen Code zum Ausführen der Regressionen für die gesamte Datei, aber ich möchte zufällige Stichproben aus der Datei ziehen und sie in R ausführen. Die Strategie lautet: Zufällige Stichprobe von N Zeilen aus der Datei ohne Ersetzung führen Sie eine Regression aus und Speichern Sie die interessierenden Koeffizienten. Wiederholen Sie diesen Vorgang M-mal mit verschiedenen Stichproben für jeden Koeffizienten. Berechnen Sie die Mittelwerte und Standardfehler der Koeffizienten über M Läufe.

Ich möchte den über M berechneten Mittelwert als Schätzung der Werte der für den gesamten Datensatz berechneten Koeffizienten und die Standardfehler der Mittelwerte als Schätzungen der Standardfehler der für den gesamten Datensatz berechneten Koeffizienten interpretieren.

Experimente zeigen, dass dies eine vielversprechende Strategie ist, aber ich bin mir über die zugrunde liegende Theorie nicht sicher. Sind meine Schätzer konsistent effizient und unvoreingenommen? Wenn sie konsistent sind, wie schnell sollten sie konvergieren? Welche Kompromisse zwischen M und N sind am besten?

Ich würde es sehr begrüßen, wenn mich jemand auf die Papiere, Bücher usw. mit der relevanten Theorie hinweisen könnte.

Viele Grüße und vielen Dank,

Joe Rickert

r regression large-data bootstrap

— csgillespie
quelle

Joshep, wenn ich Ihre Frage verstehe, besteht das Ziel Ihrer Arbeit darin, die Regressionsanalyse für Zufallsstichproben, die Sie erhalten haben, mit denen aus dem gesamten Datensatz zu demostrieren, wenn die austauschbare Annahme zutrifft. Meine Frage ist, ob jemand eine Referenz kennt, in der diese Methode verwendet wurde.

— Manuel Ramón

5

Wenn Sie davon ausgehen können, dass Ihre Zeilen Ihrer Datenmatrix austauschbar sind , sollte Ihre Modellierungsstrategie gut funktionieren. Ihre Methode sollte unter den von Gaetan Lion zuvor angegebenen Bedingungen in Ordnung sein .

Der Grund, warum Ihre Methode funktioniert ( unter der Annahme, dass die Austauschbarkeit gilt ), besteht darin, dass sie als Sonderfall eines parametrischen Bootstraps betrachtet wird, bei dem Sie N Reihen großer Stichproben erneut abtasten, ein Modell anpassen, die Koeffizienten speichern und dieses M wiederholen Zeiten (in der traditionellen Bootstrap - Terminologie Ihr M entspricht B ) und nehmen Durchschnitt der M Koeffizientenschätzungen. Sie können es auch unter dem Gesichtspunkt des Permutationstests betrachten.

Alle diese Ergebnisse sind jedoch zutreffend, wenn die ( schwer zu überprüfende ) Annahme der Austauschbarkeit zutrifft . Wenn die Annahme der Austauschbarkeit nicht zutrifft, wird die Antwort in diesem Fall etwas kompliziert. Wahrscheinlich müssen Sie sich um die austauschbaren Untergruppen in Ihren Daten kümmern und Ihren Prozess abhängig von diesen Untergruppen ausführen. Grundsätzlich hierarchische Modellierung.

— Suncoolsu
quelle

Hallo suncoolsu. Ja, ich denke, dass die Annahme der Austauschbarkeit von entscheidender Bedeutung ist. Vielen Dank für den Hinweis. Kennen Sie Ergebnisse zu Konvergenzraten?

1

Hallo Joseph, wie bei den meisten ( nicht generell ) Ergebnissen in der klassischen Statistik: Der parametrische Bootstrap konvergiert um die Raten , wobei die Stichprobengröße ist. In Ihrem Fall entspricht , da Sie den Durchschnitt von Bootstrap-Schätzungen nehmen. Dies entspricht der asymptotischen Normalität (oder CLT ). Die Annahmen und Einzelheiten des Ergebnisses finden sich in: Hall, S. 1988. Konvergenzrate in Bootstrap-Approximationen. Annalen der Wahrscheinlichkeit.

n^{\frac{1}{2}}

$n^{\frac{1}{2}}$

n

$n$

n

$n$

M

$M$

M

$M$

— Suncoolsu

Nachtrag: Wenn ich sage, meine ich, dass der Fehler mit dieser Rate auf Null geht .

n^{1 / 2}

$n^{1/2}$

O (n^{- 1 / 2})

$O(n^{-1/2})$

— Suncoolsu

Hallo suncoolsu. Vielen Dank für den Hinweis. Ich schätze es sehr. Ich werde meine Hausaufgaben machen.

4

Die Antwort auf Ihre ursprüngliche Frage lautet Ja, da die klassische Theorie unter Ihrem Stichprobenschema gilt. Sie benötigen keine Annahmen zur ursprünglichen Datenmatrix. Die gesamte Zufälligkeit (implizit hinter Standardfehlern und -konsistenz) stammt aus Ihrem Schema zum Abtasten von Zeilen aus der Datenmatrix. $N$

Stellen Sie sich Ihren gesamten Datensatz (100 Millionen Zeilen) als Grundgesamtheit vor. Jede Schätzung (vorausgesetzt, Ihre Stichprobe der Größe ist eine einfache Zufallsstichprobe der Zeilen) ist eine konsistente Schätzung der Regressionskoeffizienten (z. B. ), die aus dem gesamten Datensatz berechnet wurden. Darüber hinaus ist es ungefähr normal mit einem Mittelwert von und einer gewissen Kovarianz. Die übliche Schätzung der Kovarianz der Schätzung ist ebenfalls konsistent. Wenn Sie diese mal wiederholen und diese Schätzungen mitteln, ist die resultierende Schätzung (z. B. ) ebenfalls ungefähr normal. Sie können diese Schätzungen so lange als nahezu unabhängig (unkorreliert) behandeln $N$ $\hat{\beta}_*$ $\hat{\beta}_*$ $M$ $M$ $\hat{\beta}_{avg}$ $M$ $N$ und sind relativ zu 100 klein. Das ist eine wichtige Annahme. Die Idee ist, dass Stichproben ohne Ersatz ungefähr gleichbedeutend mit Stichproben mit Ersatz sind, wenn die Stichprobengröße im Vergleich zur Populationsgröße klein ist. $M$

Abgesehen davon denke ich, dass Ihr Problem wirklich darin besteht, die aus dem gesamten Datensatz berechnete Regressionsschätzung ( ) effizient zu approximieren . Es gibt einen Unterschied zwischen (1) Mittelung von Schätzungen basierend auf Stichproben der Größe und (2) einer Schätzung basierend auf einer Stichprobe der Größe . Die MSE von (2) ist im Allgemeinen kleiner als die MSE von (1). Sie wären nur gleich, wenn die Schätzung in den Daten linear wäre, aber das ist nicht der Fall. Ich gehe davon aus, dass Sie die kleinsten Quadrate verwenden. Die Schätzung der kleinsten Quadrate ist im Vektor (Antwortvektor) linear , nicht jedoch in der Matrix (Kovariaten). Sie wählen zufällig und . $\hat{\beta}_*$ $M$ $N$ $MN$ $Y$ $X$ $Y$ $X$

(1) und (2) sind beide einfache Schemata, aber nicht unbedingt effizient. (Obwohl es möglicherweise keine Rolle spielt, da Sie nur 30 Variablen haben.) Es gibt bessere Möglichkeiten. Hier ist ein Beispiel: http://arxiv.org/abs/0710.1435

— vqv
quelle

2

Je größer die Stichprobe N ist, desto kleiner ist der Standardfehler (höher t stat und kleiner die jeweiligen p-Werte), der allen Ihren Regressionskoeffizienten zugeordnet ist. Je größer M, desto mehr Datenpunkte haben Sie und desto kleiner ist Ihr Standardfehler des Mittelwerts der Koeffizienten über M Läufe. Solche Mittel sollten einen Standardfehler aufweisen, der normalerweise gemäß dem zentralen Grenzwertsatz verteilt ist. In Bezug auf die Konvergenz solcher Mittel bin ich mir nicht sicher, ob es statistische Grundsätze gibt, die dies vorschreiben. Ich vermute, wenn Ihre Zufallsstichprobe gut gemacht ist (keine strukturelle Verzerrung usw.), sollte die Konvergenz ziemlich schnell erfolgen. Das müssen Sie möglicherweise nur empirisch beobachten.

Ansonsten scheint Ihre Methode gut zu sein, ich sehe kein Problem damit.

— Sympa
quelle

Hallo Gaten, danke, dass du dir das angeschaut hast. Ich bin mir immer noch nicht sicher, ob ich die Logik verstehe. Die vollständige Beta-Probe. Was ist und Schätzung der wahren Beta. Mein sample.mean.beta.hat ist eine Schätzung von beta.hat ist es nicht? Ist das CLT-Argument, dass sowohl beta.hat als auch sample.mean.beta.hat zueinander konvergieren?

@Joseph. Ich bin mir nicht sicher, ob ich Ihren Kommentar verstehe. Wir verwenden nur eine etwas andere Syntax. Ich weiß nicht, was Beta bedeutet. Mein Punkt war, dass eine größere Stichprobe N eine größere statistische Signifikanz (niedrigerer Standardfehler, höherer t-Wert, niedrigerer p-Wert) für alle Regressionskoeffizienten innerhalb eines einzelnen Laufs ergibt. In der Zwischenzeit erhalten Sie durch die größere Anzahl von Iterationen M eine größere statistische Signifikanz für den Mittelwert jedes spezifischen Koeffizienten über alle Iterationen hinweg. Das sind zwei verschiedene Dinge.

— Sympa

@ Joseph, mit deiner Sprache. Ich bin nicht sicher, ob das CLT-Argument darauf hindeutet, dass sowohl beta.hat als auch sample.mean.beta.hat zueinander konvergieren. Aber dass ihre jeweiligen Ergebnisverteilungen (definiert durch ihren Standardfehler um den Mittelwert) normal verteilt werden. Ich denke, die beiden Beta-Hats werden einfach zueinander konvergieren, weil sie fester oder statistisch signifikanter werden, wenn Sie mehr N und mehr M verwenden.

— Sympa