Oder eher "wird es sein"? Big Data macht Statistiken und relevantes Wissen umso wichtiger, scheint aber die Stichprobentheorie zu unterschätzen.
Ich habe diesen Hype um 'Big Data' gesehen und frage mich, warum ich alles analysieren möchte . Gab es nicht einen Grund, warum "Sampling Theory" entworfen / implementiert / erfunden / entdeckt wurde? Ich verstehe es nicht, die gesamte "Population" des Datensatzes zu analysieren. Nur weil du es kannst, heißt das nicht, dass du es solltest (Dummheit ist ein Privileg, aber du solltest es nicht missbrauchen :)
Meine Frage lautet also: Ist es statistisch relevant, den gesamten Datensatz zu analysieren? Das Beste, was Sie tun können, ist, Fehler zu minimieren, wenn Sie eine Stichprobe machen. Aber lohnen sich die Kosten für die Minimierung dieses Fehlers wirklich? Lohnt sich der "Wert von Informationen" wirklich für die Mühe, die Zeitkosten usw., die bei der Analyse von Big Data auf massiv parallelen Computern anfallen?
Selbst wenn man die gesamte Bevölkerung analysiert, wäre das Ergebnis bestenfalls eine Vermutung mit einer höheren Wahrscheinlichkeit, richtig zu liegen. Wahrscheinlich ein bisschen höher als die Stichprobe (oder wäre es viel mehr?). Wären die Erkenntnisse aus der Analyse der Bevölkerung und der Analyse der Stichprobe sehr unterschiedlich?
Oder sollten wir es als "Zeiten haben sich geändert" akzeptieren? Sampling als Aktivität könnte bei ausreichender Rechenleistung an Bedeutung verlieren :)
Hinweis: Ich versuche nicht, eine Debatte zu beginnen, sondern suche nach einer Antwort, um zu verstehen, warum Big Data das tut, was es tut (dh alles analysiert), und die Theorie der Stichprobe zu ignorieren (oder nicht?).