Statistiken und Big Data

6

Prüfen Sie, ob sich zwei Binomialverteilungen statistisch voneinander unterscheiden

Ich habe drei Gruppen von Daten, jede mit einer Binomialverteilung (dh jede Gruppe hat Elemente, die entweder Erfolg oder Misserfolg haben). Ich habe keine vorhergesagte Erfolgswahrscheinlichkeit, sondern kann mich nur auf die Erfolgsrate jedes Einzelnen als Annäherung an die wahre Erfolgsrate stützen. Ich habe nur diese Frage gefunden , die …

37 statistical-significance binomial bernoulli-distribution

2

Vorhersageintervall für lmer () -Mischeffektmodell in R

Ich möchte ein Vorhersageintervall für eine Vorhersage aus einem lmer () -Modell erhalten. Ich habe eine Diskussion darüber gefunden: http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq Sie scheinen jedoch die Unsicherheit der zufälligen Effekte nicht zu berücksichtigen. Hier ist ein konkretes Beispiel. Ich rase Goldfisch. Ich habe Daten zu den letzten 100 Rennen. Ich möchte …

37 r mixed-model prediction prediction-interval lme4-nlme

3

Vergleich von SVM und logistischer Regression

Kann mir bitte jemand eine Vorstellung davon geben, wann ich mich für SVM oder LR entscheiden soll? Ich möchte die Intuition hinter dem Unterschied zwischen den Optimierungskriterien für das Erlernen der Hyperebene der beiden verstehen, wobei die jeweiligen Ziele wie folgt lauten: SVM: Versuchen Sie, den Abstand zwischen den nächstgelegenen …

37 regression logistic svm optimization

6

Verbessere die Klassifizierung mit vielen kategorialen Variablen

Ich arbeite an einem Datensatz mit mehr als 200.000 Stichproben und ungefähr 50 Merkmalen pro Stichprobe: 10 kontinuierliche Variablen und die anderen ~ 40 sind kategoriale Variablen (Länder, Sprachen, wissenschaftliche Gebiete usw.). Für diese kategorialen Variablen haben Sie beispielsweise 150 verschiedene Länder, 50 Sprachen, 50 wissenschaftliche Bereiche usw. Bisher ist …

37 machine-learning classification categorical-data random-forest many-categories

2

Wie erklärt die Faktoranalyse die Kovarianz, während die PCA die Varianz erklärt?

Hier ist ein Zitat aus Bishops Buch "Mustererkennung und maschinelles Lernen", Abschnitt 12.2.4 "Faktorenanalyse": Gemäß dem markierten Teil, Faktoranalyse erfasst die Kovarianz zwischen den Variablen in der Matrix WWW . Ich frage mich , WIE ? So verstehe ich es. Angenommen, xxx ist die beobachtete ppp dimensionale Variable, WWW ist …

37 pca factor-analysis geometry

10

Gibt es ein gutes populärwissenschaftliches Buch über Statistik oder maschinelles Lernen?

Es gibt eine Reihe wirklich guter populärwissenschaftlicher Bücher, die sich mit der realen Wissenschaft sowie der Geschichte und den Gründen hinter den aktuellen Theorien befassen und dennoch äußerst unterhaltsam zu lesen sind. Zum Beispiel "Chaos" von James Gleick (Chaos, Fraktale, Nichtlinearität), "Eine kurze Geschichte der Zeit" von Stephen Hawking (Physik, …

37 references communication

8

Hilf mir zu berechnen, wie viele Leute zu meiner Hochzeit kommen werden! Kann ich jeder Person einen Prozentsatz zuweisen und sie hinzufügen?

Ich plane meine Hochzeit. Ich möchte abschätzen, wie viele Personen zu meiner Hochzeit kommen werden. Ich habe eine Liste mit Personen und deren prozentualer Teilnahme erstellt. Beispielsweise Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30% Ich habe eine Liste von ungefähr 230 Leuten mit Prozentsätzen. Wie …

37 probability

4

Ist ein ausgeprägter mathematischer Hintergrund eine Grundvoraussetzung für ML?

Ich fange an, meine eigenen Fähigkeiten weiterzuentwickeln und war schon immer vom maschinellen Lernen fasziniert. Vor sechs Jahren habe ich mich jedoch entschlossen, stattdessen einen Abschluss in Informatik zu machen, der in keinerlei Beziehung steht. Ich entwickle seit ungefähr 8-10 Jahren Software und Anwendungen, daher habe ich ein gutes Gespür …

37 machine-learning references mathematical-statistics

2

Wie finde ich eine gute Passform für ein halbsinusförmiges Modell in R?

Ich möchte annehmen, dass die Meeresoberflächentemperatur der Ostsee Jahr für Jahr gleich ist, und dies dann mit einem Funktions- / Linearmodell beschreiben. Die Idee, die ich hatte, war, einfach das Jahr als Dezimalzahl (oder num_months / 12) einzugeben und herauszufinden, wie hoch die Temperatur zu dieser Zeit sein sollte. Wenn …

37 r regression time-series lm

3

SVM, Überanpassung, Fluch der Dimensionalität

Mein Datensatz ist klein (120 Samples), die Anzahl der Features variiert jedoch von (1000-200.000). Obwohl ich eine Feature-Auswahl vornehme, um eine Untergruppe von Features auszuwählen, ist diese möglicherweise immer noch zu groß. Meine erste Frage ist, wie SVM mit Überanpassung umgeht, wenn überhaupt. Zweitens bin ich beim Studium der Überanpassung …

37 classification svm

5

Wie teste ich eine nichtlineare Zuordnung?

Für Diagramm 1 kann ich die Zuordnung zwischen x und y testen, indem ich eine einfache Korrelation durchführe. Wie kann ich für Diagramm 2, in dem die Beziehung nichtlinear ist, jedoch eine eindeutige Beziehung zwischen x und y besteht, die Zuordnung testen und ihre Natur kennzeichnen?

37 nonlinear-regression non-independent association-measure

6

Bayesian vs frequentist Interpretationen der Wahrscheinlichkeit

Kann jemand einen guten Überblick über die Unterschiede zwischen der bayesianischen und der frequentistischen Herangehensweise an die Wahrscheinlichkeit geben? Von dem, was ich verstehe: Nach Ansicht der Frequentisten handelt es sich bei den Daten um eine wiederholbare Zufallsstichprobe (Zufallsvariable) mit einer bestimmten Häufigkeit / Wahrscheinlichkeit (die als relative Häufigkeit eines …

37 probability bayesian frequentist

6

Effektgröße als Hypothese für Signifikanztests

Heute, im Cross Validated Journal Club (warum warst du nicht da?), Fragte @mbq: Glauben Sie, wir (moderne Datenwissenschaftler) wissen, was Bedeutung bedeutet? Und in welcher Beziehung steht es zu unserem Vertrauen in unsere Ergebnisse? @Michelle antwortete, wie einige (einschließlich mir) normalerweise tun: Ich finde das Konzept der Signifikanz (basierend auf …

37 hypothesis-testing p-value large-data

10

Was sind die nützlichsten Quellen für Wirtschaftsdaten?

Wenn man in der Wirtschaft forscht, muss man häufig theoretische Schlussfolgerungen zu realen Daten überprüfen. Was sind zuverlässige Datenquellen, die zu verwenden und zu zitieren sind? Ich interessiere mich hauptsächlich für Quellen, die verschiedene statistische Daten wie BIP, Bevölkerung, VPI, PPI usw. liefern. BEARBEITEN: Hier ist eine Zusammenfassung der Links, …

37 references

3

Intuitive Erklärung für die Dichte der transformierten Variablen?

Angenommen, ist eine Zufallsvariable mit pdf . Dann hat die Zufallsvariable das pdfXXXfX(x)fX(x)f_X(x)Y=X2Y=X2Y=X^2 fY(y)={12y√(fX(y√)+fX(−y√))0y≥0y<0fY(y)={12y(fX(y)+fX(−y))y≥00y<0f_Y(y)=\begin{cases}\frac{1}{2\sqrt{y}}\left(f_X(\sqrt{y})+f_X(-\sqrt{y})\right) & y \ge 0 \\ 0 & y \lt 0\end{cases} Ich verstehe den Kalkül dahinter. Aber ich versuche mir einen Weg zu überlegen, wie ich es jemandem erklären kann, der keinen Kalkül kennt. Insbesondere versuche ich …

37 random-variable pdf intuition