"Big Data" ist in den Medien allgegenwärtig. Alle sagen, dass "Big Data" die große Sache für 2012 ist, z. B. die KDNuggets-Umfrage zu aktuellen Themen für 2012 . Ich habe hier jedoch tiefe Bedenken. Mit Big Data scheint jeder glücklich zu sein, nur etwas herauszubekommen. Aber verstoßen wir nicht gegen alle klassischen statistischen Prinzipien wie Hypothesentests und repräsentative Stichproben?
Solange wir nur Vorhersagen über denselben Datensatz treffen, sollte dies in Ordnung sein. Wenn ich also Twitter-Daten verwende, um das Nutzerverhalten von Twitter vorherzusagen, ist das wahrscheinlich in Ordnung. Durch die Verwendung von Twitter-Daten zur Vorhersage von z. B. Wahlen wird jedoch völlig vernachlässigt, dass die Twitter-Benutzer keine repräsentative Stichprobe für die gesamte Bevölkerung darstellen. Außerdem werden die meisten Methoden tatsächlich nicht in der Lage sein, zwischen einer echten "Basis" -Stimmung und einer Kampagne zu unterscheiden. Und Twitter steckt voller Kampagnen. Bei der Analyse von Twitter werden also schnell nur Kampagnen und Bots gemessen. (Siehe zum Beispiel "Yahoo prognostiziert Amerikas politische Gewinner"Das ist voller Umfragen und "Stimmungsanalysen sind viel besser". Sie sagten voraus, "Romney hat eine Wahrscheinlichkeit von über 90 Prozent, die Nominierung zu gewinnen und die Grundschule in South Carolina zu gewinnen" (er hatte 28%, während Gingrich 40% in dieser Grundschule hatte).
Wissen Sie, dass andere so große Datenmengen versagen ? Ich erinnere mich ungefähr, dass ein Wissenschaftler vorausgesagt hatte, dass Sie nicht mehr als 150 Freundschaften unterhalten könnten. Eigentlich hatte er bei friendster nur ein Limit entdeckt ...
Was Twitter-Daten oder eigentlich alle "Big Data" betrifft, die aus dem Internet gesammelt wurden, glaube ich, dass Menschen oft sogar zusätzliche Verzerrungen durch die Art und Weise, wie sie ihre Daten sammeln, hervorrufen. Nur wenige werden Twitter haben. Sie werden eine bestimmte Untergruppe haben, die sie entdeckt haben, und dies ist nur eine weitere Verzerrung in ihrem Datensatz.
Das Aufteilen der Daten in einen Testsatz oder das Durchführen einer Kreuzvalidierung hilft wahrscheinlich nicht viel. Der andere Satz hat die gleiche Vorspannung. Und für Big Data muss ich meine Informationen so stark "komprimieren", dass ich eher unwahrscheinlich überanpassungsfähig bin.
Ich habe kürzlich diesen Witz mit dem Big Data-Wissenschaftler gehört, der herausgefunden hat, dass es ungefähr 6 Geschlechter auf der Welt gibt ... und ich kann mir das nur so vorstellen ... "Männlich, Weiblich, Ork, Pelzartig, Ja und Nein".
Welche Methoden müssen wir also einsetzen, um die statistische Validität der Analyse wiederherzustellen, insbesondere wenn wir versuchen, etwas außerhalb des Big-Data-Datensatzes vorherzusagen?