Gute Antworten sind bereits aufgetaucht. Ich werde daher nur einige Gedanken auf der Grundlage persönlicher Erfahrungen mitteilen: Passen Sie die relevanten nach Bedarf an Ihre eigene Situation an.
Für Hintergrund und Kontext--So können Sie persönliche Vorurteile berücksichtigen, die sich in diese Nachricht einschleichen könnten - Ein Großteil meiner Arbeit bestand darin, Menschen dabei zu helfen, wichtige Entscheidungen auf der Grundlage relativ kleiner Datensätze zu treffen. Sie sind klein, weil die Datenerfassung teuer sein kann (z. B. 10.000 US-Dollar für die erste Probe eines Grundwasserüberwachungsbrunnens oder mehrere Tausend US-Dollar für die Analyse ungewöhnlicher Chemikalien). Ich bin es gewohnt, aus den verfügbaren Daten so viel wie möglich herauszuholen, sie zu erforschen und bei Bedarf neue Methoden zu erfinden, um sie zu analysieren. In den letzten Jahren war ich jedoch damit beschäftigt, an einigen relativ großen Datenbanken zu arbeiten, beispielsweise an sozioökonomischen und technischen Daten, die die gesamten USA auf der Ebene der Volkszählungsblöcke abdecken (8,5 Millionen Datensätze,
Bei sehr großen Datenmengen ändert sich die gesamte Herangehensweise und Denkweise . Es sind jetzt zu viele Daten zum Analysieren vorhanden. Einige der unmittelbaren (und rückblickend) offensichtlichen Auswirkungen (mit Schwerpunkt auf der Regressionsmodellierung) umfassen
Jede Analyse, über die Sie nachdenken, kann viel Zeit und Rechenzeit in Anspruch nehmen. Sie müssen Methoden für die Unterabtastung und die Bearbeitung von Teildatensätzen entwickeln, damit Sie Ihren Workflow beim Rechnen mit dem gesamten Datensatz planen können. (Subsampling kann kompliziert sein, weil Sie eine repräsentative Teilmenge der Daten benötigen , die so reich wie die gesamte Datenmenge ist. Und vergessen Sie nicht über die Kreuzvalidierung Ihre Modelle mit den gehaltenen-out - Daten.)
Aus diesem Grund verbringen Sie mehr Zeit damit, Ihre Arbeit zu dokumentieren und alles zu skripten (damit es wiederholt werden kann).
Wie @dsimcha gerade bemerkt hat, sind gute Programmierkenntnisse nützlich. Eigentlich braucht man nicht viel Erfahrung mit Programmierumgebungen, aber man braucht die Bereitschaft zum Programmieren, die Fähigkeit zu erkennen, wann das Programmieren hilft (eigentlich bei fast jedem Schritt) und ein gutes Verständnis der Grundelemente von Informatik, z. B. Entwurf geeigneter Datenstrukturen und Analyse der rechnerischen Komplexität von Algorithmen. Dies ist hilfreich, wenn Sie im Voraus wissen möchten, ob der zu schreibende Code auf den gesamten Datensatz skaliert.
Einige Datensätze sind groß, weil sie viele Variablen enthalten (Tausende oder Zehntausende, alle unterschiedlich). Erwarten Sie viel Zeit für das Zusammenfassen und Verstehen der Daten . Ein Codebuch oder ein Datenwörterbuch sowie andere Formen von Metadaten werden unverzichtbar.
Ein Großteil Ihrer Zeit wird damit verbracht, Daten einfach zu verschieben und neu zu formatieren. Sie benötigen Kenntnisse in der Verarbeitung großer Datenbanken und Kenntnisse in der Zusammenfassung und grafischen Darstellung großer Datenmengen. ( Tufte's Small Multiple tritt hier in den Vordergrund.)
Einige Ihrer bevorzugten Softwaretools schlagen fehl. Vergessen Sie beispielsweise Tabellenkalkulationen. Viele Open-Source- und akademische Software-Produkte sind nicht in der Lage, große Datenmengen zu verarbeiten: Die Verarbeitung wird ewig dauern oder die Software wird abstürzen. Erwarten Sie dies und stellen Sie sicher, dass Sie mehrere Möglichkeiten haben, um Ihre Hauptaufgaben zu erfüllen.
Fast alle statistischen Tests, die Sie durchführen, sind so leistungsfähig, dass Sie mit ziemlicher Sicherheit einen "signifikanten" Effekt feststellen können. Sie müssen sich viel mehr auf die statistische Wichtigkeit wie die Effektgröße als auf die Wichtigkeit konzentrieren .
In ähnlicher Weise ist die Modellauswahl problematisch, da fast jede Variable und jede mögliche Interaktion, die Sie in Betracht ziehen, von Bedeutung sein wird. Sie müssen sich mehr auf die Aussagekraft der zu analysierenden Variablen konzentrieren .
Es wird mehr als genug Informationen geben, um geeignete nichtlineare Transformationen der Variablen zu identifizieren . Wissen, wie man das macht.
Sie verfügen über genügend Daten, um nichtlineare Beziehungen, Trendänderungen, Nichtstationarität, Heteroskedastizität usw. zu erkennen.
Du wirst niemals fertig sein . Es gibt so viele Daten, dass Sie sie für immer studieren können. Es ist daher wichtig, dass Sie Ihre analytischen Ziele von Anfang an festlegen und diese ständig im Auge behalten.
Ich werde mit einer kurzen Anekdote enden, die einen unerwarteten Unterschied zwischen der Regressionsmodellierung mit einem großen Datensatz im Vergleich zu einem kleineren darstellt. Am Ende dieses Projekts musste mit den Census-Daten ein von mir entwickeltes Regressionsmodell in das Computersystem des Kunden implementiert werden, das das Schreiben von SQL-Code in eine relationale Datenbank bedeutete. Dies ist ein Routineschritt, aber der von den Datenbankprogrammierern generierte Code umfasste Tausende von SQL-Zeilen. Dies machte es fast unmöglich zu garantieren, dass es fehlerfrei war - obwohl wir die Fehler erkennen konnten (es gab unterschiedliche Ergebnisse bei den Testdaten), war es eine andere Sache, sie zu finden. (Alles, was Sie brauchen, ist ein Tippfehler in einem Koeffizienten ...) Ein Teil der Lösung bestand darin , ein Programm zu schreiben, das die SQL-Befehle direkt aus den Modellschätzungen generierte. Dies stellte sicher, dass das Ergebnis des Statistikpakets genau das war, was in das RDBMS eingeflossen ist. Als Bonus ersetzten einige Stunden, die für das Schreiben dieses Skripts aufgewendet wurden, möglicherweise mehrere Wochen für das Codieren und Testen von SQL. Dies ist ein kleiner Teil dessen, was es für den Statistiker bedeutet, seine Ergebnisse mitteilen zu können.