Wie kann man aus „Big Data“ valide Schlussfolgerungen ziehen?

"Big Data" ist in den Medien allgegenwärtig. Alle sagen, dass "Big Data" die große Sache für 2012 ist, z. B. die KDNuggets-Umfrage zu aktuellen Themen für 2012 . Ich habe hier jedoch tiefe Bedenken. Mit Big Data scheint jeder glücklich zu sein, nur etwas herauszubekommen. Aber verstoßen wir nicht gegen alle klassischen statistischen Prinzipien wie Hypothesentests und repräsentative Stichproben?

Solange wir nur Vorhersagen über denselben Datensatz treffen, sollte dies in Ordnung sein. Wenn ich also Twitter-Daten verwende, um das Nutzerverhalten von Twitter vorherzusagen, ist das wahrscheinlich in Ordnung. Durch die Verwendung von Twitter-Daten zur Vorhersage von z. B. Wahlen wird jedoch völlig vernachlässigt, dass die Twitter-Benutzer keine repräsentative Stichprobe für die gesamte Bevölkerung darstellen. Außerdem werden die meisten Methoden tatsächlich nicht in der Lage sein, zwischen einer echten "Basis" -Stimmung und einer Kampagne zu unterscheiden. Und Twitter steckt voller Kampagnen. Bei der Analyse von Twitter werden also schnell nur Kampagnen und Bots gemessen. (Siehe zum Beispiel "Yahoo prognostiziert Amerikas politische Gewinner"Das ist voller Umfragen und "Stimmungsanalysen sind viel besser". Sie sagten voraus, "Romney hat eine Wahrscheinlichkeit von über 90 Prozent, die Nominierung zu gewinnen und die Grundschule in South Carolina zu gewinnen" (er hatte 28%, während Gingrich 40% in dieser Grundschule hatte).

Wissen Sie, dass andere so große Datenmengen versagen ? Ich erinnere mich ungefähr, dass ein Wissenschaftler vorausgesagt hatte, dass Sie nicht mehr als 150 Freundschaften unterhalten könnten. Eigentlich hatte er bei friendster nur ein Limit entdeckt ...

Was Twitter-Daten oder eigentlich alle "Big Data" betrifft, die aus dem Internet gesammelt wurden, glaube ich, dass Menschen oft sogar zusätzliche Verzerrungen durch die Art und Weise, wie sie ihre Daten sammeln, hervorrufen. Nur wenige werden Twitter haben. Sie werden eine bestimmte Untergruppe haben, die sie entdeckt haben, und dies ist nur eine weitere Verzerrung in ihrem Datensatz.

Das Aufteilen der Daten in einen Testsatz oder das Durchführen einer Kreuzvalidierung hilft wahrscheinlich nicht viel. Der andere Satz hat die gleiche Vorspannung. Und für Big Data muss ich meine Informationen so stark "komprimieren", dass ich eher unwahrscheinlich überanpassungsfähig bin.

Ich habe kürzlich diesen Witz mit dem Big Data-Wissenschaftler gehört, der herausgefunden hat, dass es ungefähr 6 Geschlechter auf der Welt gibt ... und ich kann mir das nur so vorstellen ... "Männlich, Weiblich, Ork, Pelzartig, Ja und Nein".

Welche Methoden müssen wir also einsetzen, um die statistische Validität der Analyse wiederherzustellen, insbesondere wenn wir versuchen, etwas außerhalb des Big-Data-Datensatzes vorherzusagen?

— Anony-Mousse
quelle

Antworten:

Ihre Befürchtungen sind begründet und scharfsinnig. Yahoo und wahrscheinlich mehrere andere Unternehmen machen randomisierte Experimente mit Benutzern und machen es gut. Beobachtungsdaten sind jedoch mit Schwierigkeiten behaftet. Es ist ein häufiger Irrtum, dass Probleme mit zunehmender Stichprobengröße abnehmen. Dies gilt für die Varianz, aber die Vorspannung bleibt konstant, wenn n zunimmt. Wenn der Bias groß ist, kann eine sehr kleine wirklich zufällige Stichprobe oder randomisierte Studie mehr wert sein als 100.000.000 Beobachtungen.

— Frank Harrell
quelle

Big Data ist wahrscheinlich ein Bereich, in dem eine Bias-Varianz-Zerlegung nicht hilfreich ist - Datenqualität und Datenverwaltung sind wichtiger. Dies liegt daran, dass wir nicht hoffen können, jeden Datenpunkt oder sogar Sonderfälle zu kennen - einfach zu viele von ihnen

— Wahrscheinlichkeitslogik

Es gibt eine Reihe von Techniken in der Versuchsplanung und -analyse, die Ihnen dabei helfen können, Ihre Vorurteile zu verringern, aber auch dies läuft immer auf dasselbe hinaus: Man muss wissen, was man tut. Die Big-Data-Analyse hat das gleiche Problem wie jede andere Datenanalyse. es mangelt an Hypothesen.

Ein klares Beispiel ist die multiple Regression mit schrittweiser Variablenauswahl. Sehr schön, sagen, aber mit 100 Variablen gemessen statistische Gesetze vorschreiben , dass einige von ihnen wird eine signifikante Beziehung zeigen , wenn sie von der Suche , ob die jeweiligen Koeffizienten unterscheidet sich signifikant von Null bewertet. Je mehr Variablen sich in Ihrem Datensatz befinden, desto größer ist die Chance, zwei zu finden, die eine (bedeutungslose) Beziehung aufweisen. Und je größer Ihr Datenbestand ist, desto größer ist die Chance für bedeutungslose Modelle, z. B. aufgrund eines kleinen Störeffekts. Wenn Sie viele Modelle (und mit nur 10 Variablen, die eine ganze Reihe von Modellen sein können) testen, werden Sie mit hoher Wahrscheinlichkeit mindestens ein signifikantes Modell finden. Bedeutet es etwas? Nein.

Was soll man dann tun? Benutze dein Gehirn:

Formulieren Sie eine Hypothese, bevor Sie die Daten erfassen, und testen Sie diese Hypothese. Nur so können Sie sicherstellen, dass Ihre Statistiken tatsächlich eine Geschichte erzählen.
Verwenden Sie Ihre Kovariaten, um Ihre Stichproben zu schichten, bevor Sie einige Tests durchführen. Dummes Beispiel: Wenn Sie 1000 Männer und 100 Frauen in Ihrem Datensatz haben, wählen Sie nach dem Zufallsprinzip jeweils 50 aus, wenn Sie über eine Durchschnittsbevölkerung sprechen möchten. Das ist tatsächlich etwas, bei dem Big Data nützlich ist: Sie haben mehr als genug zu probieren.
Beschreiben Sie die Testpopulation gründlich, damit klar ist, für welche Population Ihre Schlussfolgerungen formuliert sind.
Wenn Sie Ihren großen Datensatz für explorative Zwecke verwenden, testen Sie die Hypothesen, die Sie während dieser Exploration aufgestellt haben, auf einem neuen und anderen Datensatz, nicht nur auf einer Teilmenge Ihrer gesammelten Daten. Und testen Sie sie erneut mit allen erforderlichen Vorsichtsmaßnahmen.

Diese Dinge sind alle offensichtlich und bekannt. Heck, bereits 1984 haben Rosenbaum und Rubin gezeigt , wie man Propensity-Scores verwendet, um Verzerrungen in Beobachtungsstudien zu reduzieren, und das sind die meisten großen Datensätze: Beobachtungsdaten. In neueren Arbeiten von Feng et al. Wird auch die Verwendung der Mahalanobis-Distanz befürwortet. Und tatsächlich schrieb einer meiner statistischen Helden, Cochran, bereits 1973 eine Rezension über dieses Problem! Oder was ist mit Rubin, der bereits 1979 multivariate Matched Sampling- und Regressionskorrekturen eingeführt hat? Alte Veröffentlichungen werden ernsthaft unterschätzt und viel zu oft ignoriert, sicherlich in einem Bereich wie der Statistik.

Alle diese Techniken haben Vor- und Nachteile, und man muss verstehen, dass das Reduzieren von Verzerrungen nicht dasselbe ist wie das Beseitigen von Verzerrungen. Aber wenn Sie wissen:

was du testen willst, und
Wie machst du das?

Big Data ist keine Entschuldigung für falsche Ergebnisse.

Bearbeitet nach der (korrekten) Bemerkung von @DW, die darauf hinwies, dass ich den Begriff "Überanpassung" in einem falschen Kontext verwendet habe.

— Joris Meys
quelle

"Je größer Ihr Datensatz ist, desto größer ist die Wahrscheinlichkeit einer sinnlosen Überanpassung." Je größer die Anzahl der möglichen Modelle ist, desto größer ist die Wahrscheinlichkeit einer Überanpassung (ansonsten sind alle gleich). Je größer der Datensatz ist, desto geringer ist die Wahrscheinlichkeit einer Überanpassung (ansonsten ist alles gleich).

— DW

@DW Wie das so? Wenn eine Simulation absolut unabhängig ist, besteht für ein signifikantes Modell mit kleinen und großen Datensätzen die gleiche Chance (eine einfache Simulation zeigt dies). Leider muss ich noch einen Datensatz treffen, bei dem die Unabhängigkeit perfekt ist. In dem Moment, in dem Sie z. B. einen sehr kleinen störenden Effekt haben, liefern große Datensätze mit größerer Wahrscheinlichkeit bedeutungslose signifikante Ergebnisse als kleine Datensätze.

— Joris Meys

Gute Antwort - Ihr Kommentar zum Auffinden signifikanter Effekte liefert eine gute Begründung für Schrumpfungsmethoden im Vergleich zu "In-or-Out" -Methoden zur Modellauswahl.

— Wahrscheinlichkeitslogik

@DW gibt eine Aussage zur Überanpassung ab und scheint korrekt zu sein - zumal je größer der Datensatz ist, desto größer ist die Wahrscheinlichkeit, dass eine Kreuzvalidierung für Teilmengen der Daten durchgeführt wird. Joris Meys gibt eine Erklärung zur statistischen Signifikanz ab. Das stimmt auch. Aber in großen Datenmengen ist statistische Signifikanz umstritten - es ist die Effektgröße, die wichtig ist, weil fast alles "statistisch signifikant" ist.

— Radfahrer

@ zbicyclist Sehr korrekte Beobachtung. Ich gebe zu, ich habe DW falsch interpretiert und den Begriff Überanpassung in einem falschen Kontext verwendet. Ich stehe korrigiert.

— Joris Meys