Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

6
Prüfen Sie, ob sich zwei Binomialverteilungen statistisch voneinander unterscheiden
Ich habe drei Gruppen von Daten, jede mit einer Binomialverteilung (dh jede Gruppe hat Elemente, die entweder Erfolg oder Misserfolg haben). Ich habe keine vorhergesagte Erfolgswahrscheinlichkeit, sondern kann mich nur auf die Erfolgsrate jedes Einzelnen als Annäherung an die wahre Erfolgsrate stützen. Ich habe nur diese Frage gefunden , die …

2
Vorhersageintervall für lmer () -Mischeffektmodell in R
Ich möchte ein Vorhersageintervall für eine Vorhersage aus einem lmer () -Modell erhalten. Ich habe eine Diskussion darüber gefunden: http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq Sie scheinen jedoch die Unsicherheit der zufälligen Effekte nicht zu berücksichtigen. Hier ist ein konkretes Beispiel. Ich rase Goldfisch. Ich habe Daten zu den letzten 100 Rennen. Ich möchte …

3
Vergleich von SVM und logistischer Regression
Kann mir bitte jemand eine Vorstellung davon geben, wann ich mich für SVM oder LR entscheiden soll? Ich möchte die Intuition hinter dem Unterschied zwischen den Optimierungskriterien für das Erlernen der Hyperebene der beiden verstehen, wobei die jeweiligen Ziele wie folgt lauten: SVM: Versuchen Sie, den Abstand zwischen den nächstgelegenen …

6
Verbessere die Klassifizierung mit vielen kategorialen Variablen
Ich arbeite an einem Datensatz mit mehr als 200.000 Stichproben und ungefähr 50 Merkmalen pro Stichprobe: 10 kontinuierliche Variablen und die anderen ~ 40 sind kategoriale Variablen (Länder, Sprachen, wissenschaftliche Gebiete usw.). Für diese kategorialen Variablen haben Sie beispielsweise 150 verschiedene Länder, 50 Sprachen, 50 wissenschaftliche Bereiche usw. Bisher ist …


10
Gibt es ein gutes populärwissenschaftliches Buch über Statistik oder maschinelles Lernen?
Es gibt eine Reihe wirklich guter populärwissenschaftlicher Bücher, die sich mit der realen Wissenschaft sowie der Geschichte und den Gründen hinter den aktuellen Theorien befassen und dennoch äußerst unterhaltsam zu lesen sind. Zum Beispiel "Chaos" von James Gleick (Chaos, Fraktale, Nichtlinearität), "Eine kurze Geschichte der Zeit" von Stephen Hawking (Physik, …


4
Ist ein ausgeprägter mathematischer Hintergrund eine Grundvoraussetzung für ML?
Ich fange an, meine eigenen Fähigkeiten weiterzuentwickeln und war schon immer vom maschinellen Lernen fasziniert. Vor sechs Jahren habe ich mich jedoch entschlossen, stattdessen einen Abschluss in Informatik zu machen, der in keinerlei Beziehung steht. Ich entwickle seit ungefähr 8-10 Jahren Software und Anwendungen, daher habe ich ein gutes Gespür …


3
SVM, Überanpassung, Fluch der Dimensionalität
Mein Datensatz ist klein (120 Samples), die Anzahl der Features variiert jedoch von (1000-200.000). Obwohl ich eine Feature-Auswahl vornehme, um eine Untergruppe von Features auszuwählen, ist diese möglicherweise immer noch zu groß. Meine erste Frage ist, wie SVM mit Überanpassung umgeht, wenn überhaupt. Zweitens bin ich beim Studium der Überanpassung …


6
Bayesian vs frequentist Interpretationen der Wahrscheinlichkeit
Kann jemand einen guten Überblick über die Unterschiede zwischen der bayesianischen und der frequentistischen Herangehensweise an die Wahrscheinlichkeit geben? Von dem, was ich verstehe: Nach Ansicht der Frequentisten handelt es sich bei den Daten um eine wiederholbare Zufallsstichprobe (Zufallsvariable) mit einer bestimmten Häufigkeit / Wahrscheinlichkeit (die als relative Häufigkeit eines …

6
Effektgröße als Hypothese für Signifikanztests
Heute, im Cross Validated Journal Club (warum warst du nicht da?), Fragte @mbq: Glauben Sie, wir (moderne Datenwissenschaftler) wissen, was Bedeutung bedeutet? Und in welcher Beziehung steht es zu unserem Vertrauen in unsere Ergebnisse? @Michelle antwortete, wie einige (einschließlich mir) normalerweise tun: Ich finde das Konzept der Signifikanz (basierend auf …

10
Was sind die nützlichsten Quellen für Wirtschaftsdaten?
Wenn man in der Wirtschaft forscht, muss man häufig theoretische Schlussfolgerungen zu realen Daten überprüfen. Was sind zuverlässige Datenquellen, die zu verwenden und zu zitieren sind? Ich interessiere mich hauptsächlich für Quellen, die verschiedene statistische Daten wie BIP, Bevölkerung, VPI, PPI usw. liefern. BEARBEITEN: Hier ist eine Zusammenfassung der Links, …
37 references 

3
Intuitive Erklärung für die Dichte der transformierten Variablen?
Angenommen, ist eine Zufallsvariable mit pdf . Dann hat die Zufallsvariable das pdfXXXfX(x)fX(x)f_X(x)Y=X2Y=X2Y=X^2 fY(y)={12y√(fX(y√)+fX(−y√))0y≥0y<0fY(y)={12y(fX(y)+fX(−y))y≥00y<0f_Y(y)=\begin{cases}\frac{1}{2\sqrt{y}}\left(f_X(\sqrt{y})+f_X(-\sqrt{y})\right) & y \ge 0 \\ 0 & y \lt 0\end{cases} Ich verstehe den Kalkül dahinter. Aber ich versuche mir einen Weg zu überlegen, wie ich es jemandem erklären kann, der keinen Kalkül kennt. Insbesondere versuche ich …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.