Als «large-data» getaggte Fragen

"Große Datenmenge" bezieht sich auf Situationen, in denen die Anzahl der Beobachtungen (Datenpunkte) so groß ist, dass Änderungen in der Art und Weise erforderlich sind, wie der Datenanalyst die Analyse betrachtet oder durchführt. (Nicht zu verwechseln mit "hoher Dimensionalität".)




7
Herausforderungen zwischen Industrie und Kaggle. Ist es wichtiger, mehr Beobachtungen zu sammeln und Zugang zu mehr Variablen zu haben als ausgefallene Modelle?
Ich hoffe der Titel ist selbsterklärend. In Kaggle verwenden die meisten Gewinner das Stapeln mit manchmal Hunderten von Basismodellen, um ein paar Prozent mehr MSE und Genauigkeit zu erzielen. Generell ist es Ihrer Erfahrung nach wichtig, ausgefallene Modelle wie das Stapeln und nicht nur mehr Daten und Features zu erfassen …

8
Ist Stichproben in Zeiten von Big Data relevant?
Oder eher "wird es sein"? Big Data macht Statistiken und relevantes Wissen umso wichtiger, scheint aber die Stichprobentheorie zu unterschätzen. Ich habe diesen Hype um 'Big Data' gesehen und frage mich, warum ich alles analysieren möchte . Gab es nicht einen Grund, warum "Sampling Theory" entworfen / implementiert / erfunden …


10
Was genau ist Big Data?
Mir wurde mehrmals die Frage gestellt: Was ist Big-Data? Sowohl von Schülern als auch von meinen Verwandten, die das Rummel um Statistiken und ML aufgreifen. Ich habe diesen Lebenslauf gefunden . Und ich habe das Gefühl, dass ich der einzigen Antwort dort zustimme. Die Wikipedia-Seite enthält auch einige Kommentare, aber …
44 large-data 


6
Effektgröße als Hypothese für Signifikanztests
Heute, im Cross Validated Journal Club (warum warst du nicht da?), Fragte @mbq: Glauben Sie, wir (moderne Datenwissenschaftler) wissen, was Bedeutung bedeutet? Und in welcher Beziehung steht es zu unserem Vertrauen in unsere Ergebnisse? @Michelle antwortete, wie einige (einschließlich mir) normalerweise tun: Ich finde das Konzept der Signifikanz (basierend auf …

5
Freier Datensatz für sehr hohe dimensionale Klassifizierung [geschlossen]
Was ist der frei verfügbare Datensatz zur Klassifizierung mit mehr als 1000 Merkmalen (oder Stichprobenpunkten, wenn er Kurven enthält)? Es gibt bereits ein Community-Wiki zu freien Datensätzen: Auffinden frei verfügbarer Datenproben Aber hier wäre es schön, eine fokussiertere Liste zu haben, die bequemer verwendet werden kann. Außerdem schlage ich die …

3
Polynom-Regression mit Scikit-Learn
Ich versuche, Scikit-Learn für die Polynom-Regression zu verwenden. Nach meinem Verständnis ist die polynomielle Regression ein Sonderfall der linearen Regression. Ich habe gehofft, dass vielleicht eines der generalisierten linearen Modelle von scikit für Polynome höherer Ordnung parametrisiert werden kann, aber ich sehe keine Möglichkeit, dies zu tun. Ich habe es …

9
Software-Tools für Statistik und Data Mining für den Umgang mit großen Datenmengen
Derzeit muss ich ungefähr 20 Millionen Datensätze analysieren und Vorhersagemodelle erstellen. Bisher habe ich Statistica, SPSS, RapidMiner und R ausprobiert. Unter diesen scheint Statistica am besten für das Data Mining geeignet zu sein, und die RapidMiner-Benutzeroberfläche ist ebenfalls sehr praktisch, aber es scheint, dass Statistica, RapidMiner und SPSS nur für …

1
Hochmodernes Streaming-Lernen
Ich habe in letzter Zeit mit großen Datenmengen gearbeitet und viele Artikel über Streaming-Methoden gefunden. Um ein paar zu nennen: Follow-the-Regularized-Leader und Mirror-Descent: Äquivalenzsätze und L1-Regularisierung ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf ) Gestreamtes Lernen: SVMs mit einem Durchgang ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf ) Pegasos: Primal Estimated sub-GrAdient SOlver für SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf oder hier: Kann SVM …

1
Wie kann man sich eine riesige, spärliche Kontingenztabelle vorstellen?
Ich habe zwei Variablen: Drogenname (DN) und entsprechende unerwünschte Ereignisse (AE), die in einer Beziehung von vielen zu vielen stehen. Es gibt 33.556 Medikamentennamen und 9.516 unerwünschte Ereignisse. Die Stichprobengröße beträgt etwa 5,8 Millionen Beobachtungen. Ich möchte die Assoziation / Beziehung zwischen DN und AE studieren und verstehen. Ich denke …

3
Erster Schritt für Big Data ( , )
Angenommen, Sie analysieren einen riesigen Datensatz mit Milliarden von Beobachtungen pro Tag, wobei jede Beobachtung einige Tausend spärliche und möglicherweise redundante numerische und kategoriale Variablen enthält. Angenommen, es gibt ein Regressionsproblem, ein Problem der unausgeglichenen binären Klassifizierung und die Aufgabe, herauszufinden, welche Prädiktoren am wichtigsten sind. Mein Gedanke, wie ich …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.