Ist Stichproben in Zeiten von Big Data relevant?


54

Oder eher "wird es sein"? Big Data macht Statistiken und relevantes Wissen umso wichtiger, scheint aber die Stichprobentheorie zu unterschätzen.

Ich habe diesen Hype um 'Big Data' gesehen und frage mich, warum ich alles analysieren möchte . Gab es nicht einen Grund, warum "Sampling Theory" entworfen / implementiert / erfunden / entdeckt wurde? Ich verstehe es nicht, die gesamte "Population" des Datensatzes zu analysieren. Nur weil du es kannst, heißt das nicht, dass du es solltest (Dummheit ist ein Privileg, aber du solltest es nicht missbrauchen :)

Meine Frage lautet also: Ist es statistisch relevant, den gesamten Datensatz zu analysieren? Das Beste, was Sie tun können, ist, Fehler zu minimieren, wenn Sie eine Stichprobe machen. Aber lohnen sich die Kosten für die Minimierung dieses Fehlers wirklich? Lohnt sich der "Wert von Informationen" wirklich für die Mühe, die Zeitkosten usw., die bei der Analyse von Big Data auf massiv parallelen Computern anfallen?

Selbst wenn man die gesamte Bevölkerung analysiert, wäre das Ergebnis bestenfalls eine Vermutung mit einer höheren Wahrscheinlichkeit, richtig zu liegen. Wahrscheinlich ein bisschen höher als die Stichprobe (oder wäre es viel mehr?). Wären die Erkenntnisse aus der Analyse der Bevölkerung und der Analyse der Stichprobe sehr unterschiedlich?

Oder sollten wir es als "Zeiten haben sich geändert" akzeptieren? Sampling als Aktivität könnte bei ausreichender Rechenleistung an Bedeutung verlieren :)

Hinweis: Ich versuche nicht, eine Debatte zu beginnen, sondern suche nach einer Antwort, um zu verstehen, warum Big Data das tut, was es tut (dh alles analysiert), und die Theorie der Stichprobe zu ignorieren (oder nicht?).


1
Siehe auch: stats.stackexchange.com/q/22502/7828 - wie man aus Big Data gültige Schlussfolgerungen zieht.
Anony-Mousse

2
(+1 vor langer Zeit) Ich lese immer wieder gerne Ihre aufschlussreichen Fragen. Sie sind eine echte Bereicherung für diese Site.
Kardinal

1
@ Kardinal - Ich freue mich aufrichtig über Ihren Kommentar. Bedeutet, dass viel von dir kommt.
PhD

Antworten:


29

Mit einem Wort, ja . Ich glaube, es gibt immer noch eindeutige Situationen, in denen Stichproben innerhalb und außerhalb der "Big Data" -Welt angemessen sind, aber die Art von Big Data wird unseren Ansatz für Stichproben zweifellos ändern, und wir werden mehr Datensätze verwenden, die nahezu vollständige Darstellungen des Basiswerts sind Population.

Zur Probenahme: Abhängig von den Umständen ist fast immer klar, ob eine Probenahme angebracht ist. Probenahme ist keine von Natur aus vorteilhafte Aktivität. Es ist genau das, was wir tun, weil wir Kompromisse bei den Kosten für die Implementierung der Datenerfassung eingehen müssen. Wir versuchen, Populationen zu charakterisieren und müssen die geeignete Methode zum Sammeln und Analysieren von Daten über die Bevölkerung auswählen. Stichprobenerfassung ist sinnvoll, wenn die Grenzkosten einer Methode zur Datenerfassung oder Datenverarbeitung hoch sind. Der Versuch, 100% der Bevölkerung zu erreichen, ist in diesem Fall keine gute Ressourcennutzung, da Sie häufig besser daran sind, Dinge wie Non-Response-Bias anzugehen, als den Zufallsstichprobenfehler geringfügig zu verbessern.

Wie unterscheidet sich Big Data? "Big Data" befasst sich mit vielen der Fragen, die wir seit langem hatten. Neu ist jedoch, dass die Datenerfassung über einen vorhandenen, computergestützten Prozess erfolgt. Die Grenzkosten für die Datenerfassung betragen daher im Wesentlichen null. Dies reduziert unseren Bedarf an Stichproben erheblich.

Wann verwenden wir noch Stichproben? Wenn Ihre "Big Data" -Population die richtige Population für das Problem ist, werden Sie nur in wenigen Fällen Stichproben verwenden: die Notwendigkeit, separate Versuchsgruppen zu erstellen, oder wenn das Datenvolumen für die Erfassung und Verarbeitung zu groß ist (viele) von uns können heutzutage Millionen von Datenzeilen mühelos verarbeiten, sodass die Grenze hier immer weiter herausragt. Wenn es so aussieht, als würde ich Ihre Frage ablehnen, ist dies wahrscheinlich darauf zurückzuführen, dass ich selten Situationen erlebt habe, in denen das Datenvolumen in der Erfassungs- oder Verarbeitungsphase ein Problem darstellte, obwohl ich weiß, dass dies viele sind

Die Situation, die mir schwierig erscheint, ist, wenn Ihre "Big Data" -Population nicht perfekt Ihre Zielpopulation darstellt, so dass die Kompromisse mehr Äpfel für Orangen sind. Nehmen wir an, Sie sind ein regionaler Transportplaner, und Google hat angeboten, Ihnen Zugriff auf seine Android-GPS-Navigationsprotokolle zu gewähren, um Ihnen zu helfen. Während der Datensatz zweifellos interessant zu verwenden wäre, wäre die Bevölkerung wahrscheinlich systematisch voreingenommen gegenüber einkommensschwachen Personen, Nutzern des öffentlichen Nahverkehrs und älteren Menschen. In einer solchen Situation könnten herkömmliche Reisetagebücher, die an eine zufällige Haushaltsstichprobe gesendet werden, die überlegene Methode zur Datenerfassung sein, auch wenn sie teurer und kleiner sind. Dies ist jedoch nicht nur eine Frage des "Samplings im Vergleich zu Big Data".


22

Es werden zwar verdammt viele Big Data-Daten von mobilen Geräten produziert, aber es sind nur wenige verwendbare Daten enthalten. Wenn Sie die städtischen Reisemuster mithilfe von foursquare vorhersagen möchten, können Sie bei den geschätzten Flüssen um eine Größenordnung abweichen. Schlimmer noch, Sie werden nicht wissen, ob Sie diese Ströme überschätzen oder unterschätzen. Sie können sich ein wahnsinnig genaues Bild von den städtischen Reisemustern manischer foursquare-Benutzer machen, aber es sei denn, jeder muss (1) ein funktionierendes Smartphone besitzen, (2) die foursquare-App ständig ausführen und (3) sich bei registrieren An jedem Ort, an dem sie sich länger als 10 Minuten aufhalten (z. B. eine elektronische Volkszählung durchführen lassen, damit sich Libertäre über Google und Facebook beschweren und alles über Sie wissen), enthalten Ihre Daten unbekannte Vorurteile und Ihre elektronischen Deweys besiegen weiterhin das wahre Wort Truman (anklickbar):


(Quelle: whatisasurvey.info )

Wenn überhaupt, würde ich davon ausgehen, dass sich dieses Stück Geschichte wiederholen wird, und einige große "Bier + Windeln" -Prognosen, die aus Big Data erstellt wurden, würden von Forschern, die strengere Stichprobenverfahren anwenden, auf den Kopf gestellt. Es ist überraschend, dass wahrscheinlichkeitsbasierte Umfragen trotz sinkender Rücklaufquoten immer noch präzise sind.


1
(+1) Aber wären kein stereotypisch viereckig Benutzer das Gegenteil von seiner paranoid . ;-)
Kardinal

1
Ja ... wahrscheinlich ein schlechter Begriff. Lassen Sie mich das zu maniacal ändern!
StasK

2
Big Data ist nicht der Schuldige. So wird es benutzt. Wenn es Informationen hat und richtig angewendet wird, kann es sehr hilfreich sein. Data Mining ist nicht alles schlecht.
Michael Chernick

Toller Punkt bei der Verwendung von Big Data für Verkehrsinformationen. Da Unternehmen wie Google und Apple dies bereits tun, ist dies meines Erachtens ein großartiges Beispiel dafür, wo (derzeit verfügbare) Big Data für einige Zielgruppen unzureichend sein können, und ich habe versucht, es auch in meine Antwort aufzunehmen.
Jonathan

@Michael, du hast natürlich recht. Die Daten sind spottbillig, aber die Möglichkeiten, brauchbare Informationen herauszuholen, gehen nicht verloren - wenn überhaupt, steigen sie, da man jetzt mehr Daten durchsuchen muss, um die nützlichen Informationen herauszufinden.
StasK

21

Wann immer man Techniken der statistischen Inferenz anwendet, ist es wichtig, klar zu machen, über welche Population man Schlussfolgerungen ziehen möchte. Auch wenn die gesammelten Daten sehr umfangreich sind, beziehen sie sich möglicherweise nur auf einen kleinen Teil der Bevölkerung und sind möglicherweise nicht sehr repräsentativ für das Ganze.

Angenommen, ein in einer bestimmten Branche tätiges Unternehmen hat über seine Kunden in einem bestimmten Land Big Data gesammelt. Wenn das Unternehmen diese Daten verwenden möchte, um Rückschlüsse auf seine bestehenden Kunden in diesem Land zu ziehen, ist die Stichprobenerhebung möglicherweise nicht sehr relevant. Wenn jedoch Rückschlüsse auf eine größere Population gezogen werden sollen - potenzielle sowie bestehende Kunden oder Kunden in einem anderen Land -, ist es wichtig zu prüfen, inwieweit die Kunden, über die Daten erhoben wurden, repräsentativ sind - möglicherweise in Bezug auf Einkommen, Alter , Geschlecht, Bildung usw. - der größeren Bevölkerung.

Die zeitliche Dimension muss ebenfalls berücksichtigt werden. Wenn das Ziel darin besteht, statistische Inferenz zur Unterstützung von Vorhersagen zu verwenden, muss die Bevölkerung so verstanden werden, dass sie sich in die Zukunft erstreckt. In diesem Fall muss erneut geprüft werden, ob der Datensatz, wie groß er auch sein mag, unter Umständen erstellt wurde, die repräsentativ für die zukünftigen sind.


Willkommen auf unserer Seite, Adam! (Wenn Sie regelmäßig einchecken, finden Sie sogar gelegentlich Gelegenheit, Ihre Interessen in Geometrie und Zahlentheorie zu vertreten . :-)
whuber

Toller Punkt über die Notwendigkeit, die Bevölkerung zu berücksichtigen! Das ist eine der großen Möglichkeiten, mit Big Data zu faulenzen.
Jonathan

"Auch wenn die gesammelten Daten sehr groß sind, beziehen sie sich möglicherweise nur auf einen kleinen Teil der Bevölkerung und sind möglicherweise nicht sehr repräsentativ für das Ganze." Ich denke, dieser Satz allein beantwortet viele Fragen.
Bemipefe

13

Nach dem, was ich von der großen Daten- / ML-Begeisterung gesehen habe, ist es genauso wichtig wie immer, über Stichproben und die Population nachzudenken, aus der Ihre Stichprobe stammt - aber noch weniger.

Ich "auditiere" die Stanford ML-Klasse, und bis jetzt haben wir Regression und neuronale Netze mit keiner Erwähnung von Bevölkerungsinferenz behandelt. Da diese Klasse von 6 Personen besucht wurde, gibt es mittlerweile eine Menge Leute, die wissen, wie man Daten sehr gut anpasst, ohne die Idee einer Stichprobe zu kennen.


3
Ich stimme vollkommen zu. Wenn ich die derzeitige Begeisterung für maschinelles Lernen (hauptsächlich Praktiker und Programmierer), Big Data und "Data Science" beobachte, finde ich es lächerlich, dass Menschen das Verständnis und die Bedeutung von Stichproben, Folgerungen und statistischen Überlegungen völlig ignorieren und es für die blinde Anwendung von allem opfern Algorithmus ist hip drauf. Sie können das sogar mit Fragen und einigen Antworten hier auf Kreuzvalidierung sehen. Aus diesem Grund halte ich es auch für einen Hype, der bald überholt sein oder statistische Erkenntnistheorie leihen und so zu einem Zweig von Statistiken werden wird (ich sehe es sowieso als solchen an).
Momo

2
Wenn diese ML-Klasse derjenigen ähnelt, die ich vor einiger Zeit auditiert habe, ist kurz vor der Höffding-Ungleichung eine technische Vermutung eingedrungen, dass es sich bei den Trainingsdaten um eine vollkommen zufällige Stichprobe aus der Bevölkerung handelt. Leider ist dies so gut wie nie der Fall, zumindest nach meiner Erfahrung und in den Beispielen für die Anwendung der Techniken während des gesamten Kurses. Wenn Sie "Big Data" verwenden, ist dies immer noch nicht der Fall.
Douglas Zare

12

Ja, die Probenahme ist relevant und bleibt relevant. Fazit ist, dass die Genauigkeit einer statistischen Schätzung im Allgemeinen von der Stichprobengröße abhängt und nicht von der Grundgesamtheit, auf die wir verallgemeinern möchten. Ein Mittelwert oder ein durchschnittlicher Anteil, der aus einer Stichprobe von 1.000 Befragten berechnet wurde, ergibt somit eine Schätzung einer bestimmten Genauigkeit (in Bezug auf die gesamte Population, aus der wir die Stichprobe gezogen haben), unabhängig von der Bevölkerungsgröße (oder „wie groß“ die „ big data ”sind).

Dennoch: Es gibt spezifische Themen und Herausforderungen, die relevant sind und erwähnt werden sollten:

  1. Eine gute Wahrscheinlichkeitsprobe zu nehmen ist nicht immer einfach. Theoretisch muss jedes Individuum in der Population, auf das wir verallgemeinern wollen (worauf wir schließen wollen), eine bekannte Wahrscheinlichkeit haben, ausgewählt zu werden. Idealerweise sollte diese Wahrscheinlichkeit gleich sein (Stichprobe mit gleicher Wahrscheinlichkeit oder EPSEM - Equal Probability of Selection). Dies ist eine wichtige Überlegung, und man sollte genau wissen, wie der Stichprobenprozess den Mitgliedern der Bevölkerung, auf die man verallgemeinern möchte, Auswahlwahrscheinlichkeiten zuweist. Kann man zum Beispiel von Twitter-Feeds genaue Schätzungen der allgemeinen Stimmung in der Gesamtbevölkerung ableiten, einschließlich der Personen ohne Twitter-Account?
  2. Big Data kann sehr komplexe Details und Informationen enthalten. Anders ausgedrückt, es geht nicht um Stichproben, sondern um (Mikro-) Segmentierung, bei der die richtigen Details für eine kleine Teilmenge relevanter Beobachtungen herausgearbeitet werden. Hier geht es nicht um Stichproben, sondern darum, die spezifische Schichtung und Segmentierung der Big Data zu identifizieren, die die genauesten umsetzbaren Informationen liefert, die in wertvolle Erkenntnisse umgewandelt werden können.
  3. Eine andere allgemeine Regel der Meinungsmessung ist, dass Nicht-Stichprobenfehler und -verzerrungen in der Regel viel größer sind als die Stichprobenfehler und -verzerrungen. Nur weil Sie einhundert Milliarden Datensätze von Befragten verarbeiten, die eine Meinung äußern, sind die Ergebnisse nicht nützlicher, wenn Sie nur Daten einer Teilstichprobe von 1000 Personen haben, insbesondere, wenn die Fragen für die jeweilige Umfrage nicht gut geschrieben und voreingenommen waren.
  4. Manchmal sind Stichproben erforderlich: Wenn man beispielsweise ein Vorhersagemodell aus allen Daten erstellen würde, wie würde man es validieren? Wie würde man die Genauigkeit verschiedener Modelle vergleichen? Wenn es „Big Data“ (sehr große Datenrepositorys) gibt, können mehrere Modelle und Modellierungsszenarien für verschiedene Stichproben erstellt und in anderen unabhängigen Stichproben validiert (ausprobiert) werden. Wenn man ein Modell für alle Daten erstellen würde - wie würde man es validieren?

Sie können unsere 'Big Data Revolution' hier ansehen.


1
Willkommen auf unserer Seite, Kyra!
whuber

3

Viele Big-Data-Methoden basieren auf Stichproben.

Die Frage sollte eher lauten:

Sollten wir nicht auch bei Big Data systematische Stichproben verwenden?

Viele der "Big Data" -Stücke sind noch ziemlich frisch und manchmal naiv. K-means zum Beispiel kann trivial parallelisiert werden und funktioniert somit für "Big Data" (ich werde nicht über die Ergebnisse sprechen, sie sind nicht sehr aussagekräftig und wahrscheinlich nicht sehr unterschiedlich zu den Ergebnissen einer Stichprobe!). Soweit ich weiß, ist dies das, was die Implementierung von k-means in Mahout bewirkt.

Die Forschung geht jedoch über die naive Parallelisierung hinaus (die möglicherweise noch eine große Anzahl von Iterationen erfordert) und versucht, K-Mittel in einer festgelegten Anzahl von Iterationen auszuführen. Beispiel dafür:

  • Schnelles Clustering mit MapReduce
    Ene, A. und Im, S. und Moseley, B.
    Konferenzbeiträge der 17. internationalen ACM SIGKDD-Konferenz zu Knowledge Discovery und Data Mining, 2011

Und raten Sie mal, ihr Ansatz basiert stark auf Stichproben .

Nächstes Beispiel: Entscheidungswälder . Das heißt im Wesentlichen: Erstellen Sie für mehrere Stichproben aus dem Datensatz jeweils einen Entscheidungsbaum. Kann wieder trivial parallelisiert werden: Legen Sie jede Probe auf eine separate Maschine. Und wieder ist es ein stichprobenbasierter Ansatz.

Stichproben sind daher einer der Hauptbestandteile für Big-Data-Ansätze!

Und daran ist nichts auszusetzen.


2

Die Kreuzvalidierung ist ein spezielles Beispiel für die Teilstichprobe, die für ML / Big Data von großer Bedeutung ist. Im Allgemeinen ist Big Data immer noch eine Stichprobe einer Population, wie andere hier bereits erwähnt haben.

Ich denke jedoch, dass OP sich speziell auf Stichproben bezieht, da es sich auf kontrollierte Experimente im Vergleich zu Beobachtungsdaten bezieht. Normalerweise wird Big Data als letzteres angesehen, aber für mich gibt es zumindest Ausnahmen. Ich würde randomisierte Studien, A / B-Tests und Banditen mit mehreren Waffen in E-Commerce- und Social-Network-Umgebungen als Beispiele für "Stichproben in Big-Data-Umgebungen" betrachten.


1

In den Bereichen, in denen Big Data immer beliebter wird: Suche, Werbung, Empfehlungssysteme wie Amazon und Netflix, besteht ein sehr großer Anreiz, den gesamten Datensatz zu erkunden.

Ziel dieser Systeme ist es, Empfehlungen / Vorschläge auf jedes einzelne Mitglied der Bevölkerung abzustimmen. Auch die Anzahl der untersuchten Attribute ist enorm. Das durchschnittliche Webanalysesystem kann die Klickrate, das "thermische Verfolgen" der "heißen Bereiche" auf einer Seite, soziale Interaktionen usw. messen und diese mit einem großen Satz vorbestimmter Ziele abwägen.

Noch wichtiger ist, dass die meisten Orte, an denen Big Data mittlerweile allgegenwärtig ist, "Online" -Datenströme sind, dh, Daten werden ständig hinzugefügt / aktualisiert. Die Entwicklung eines Stichprobenplans, der alle diese Merkmale ohne inhärente Verzerrung abdeckt und dennoch vielversprechende Ergebnisse liefert (bessere Gewinnspannen), ist eine Herausforderung.

Die Stichprobenerhebung bleibt für Umfragen, medizinische Studien, A / B-Tests und die Qualitätssicherung weiterhin von hoher Relevanz.

Kurz gesagt, Stichproben sind sehr nützlich, wenn die zu untersuchende Population sehr groß ist und Sie an den makroskopischen Eigenschaften der Population interessiert sind. Eine 100% -ige Überprüfung (Big Data) ist erforderlich, um die mikroskopischen Eigenschaften des Systems zu nutzen

Hoffe das hilft :)


Wollen Sie also nicht über die vorhandenen Daten hinaus auf die Daten verallgemeinern, die sie noch nicht haben? Oder dass sie denken, dass ihre Stichprobe so groß ist, dass sie sich um diese Themen keine Sorgen machen müssen? Oder dass sich die zugrunde liegenden Parameter im Laufe der Zeit ändern, spielt also keine Rolle, solange sie weiterhin aktualisiert werden, während neue Daten einfließen?
gung - Wiedereinsetzung von Monica

@gung das Problem ist nicht die Größe der Stichprobe, sondern das Problem, eine unbefangene Stichprobe für einen Datensatz mit einer großen Anzahl von Attributen zu generieren. Die Verallgemeinerung erfolgt normalerweise durch maschinelle Lernalgorithmen, die an einem Teil des Datensatzes trainiert werden. Die ständig eingehenden Online-Datenströme machen das Problem der Probenahme zu einem zweitrangigen Problem, da Chargenaktualisierungen zum Ändern der Parameter verwendet werden können.
Amoklauf
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.