Statistiken und Big Data

7

Warum ist ein Komma ein fehlerhaftes Trennzeichen / Trennzeichen in CSV-Dateien?

Ich habe diesen Artikel gelesen und bin gespannt auf die richtige Antwort auf diese Frage. Das einzige, was mir in den Sinn kommt, ist vielleicht, dass in einigen Ländern das Dezimaltrennzeichen ein Komma ist und es Probleme beim Austausch von Daten in CSV geben kann , aber ich bin mir …

32 project-management

5

Warum gibt es zwei Schreibweisen für "heteroskedastisch" oder "heteroskedastisch"?

Ich sehe häufig sowohl die Schreibweisen "heteroskedastisch" als auch "heteroskedastisch" und in ähnlicher Weise "homoskedastisch" und "homoskedastisch". Es scheint keinen Unterschied in der Bedeutung zwischen der "c" - und der "k" -Variante zu geben, sondern lediglich einen orthografischen Unterschied in Bezug auf die griechische Etymologie des Wortes. Woher stammen die …

32 terminology heteroscedasticity etymology

3

Warum liefert die Inversion einer Kovarianzmatrix teilweise Korrelationen zwischen Zufallsvariablen?

Ich habe gehört, dass partielle Korrelationen zwischen Zufallsvariablen gefunden werden können, indem die Kovarianzmatrix invertiert und entsprechende Zellen aus dieser resultierenden Präzisionsmatrix entnommen werden (diese Tatsache wird in http://en.wikipedia.org/wiki/Partial_correlation erwähnt , aber ohne Beweis). . Warum ist das so?

32 covariance covariance-matrix linear-algebra partial-correlation matrix-inverse

2

Logistische Regression: Bernoulli vs. Binomial Response Variables

Ich möchte eine logistische Regression mit der folgenden Binomialantwort und mit und als meinen Prädiktoren durchführen. X1X1X_1X2X2X_2 Ich kann die gleichen Daten wie Bernoulli-Antworten im folgenden Format präsentieren. Die logistischen Regressionsausgaben für diese beiden Datensätze sind größtenteils gleich. Die Abweichungsreste und der AIC sind unterschiedlich. (Der Unterschied zwischen der Nullabweichung …

32 logistic binomial aic bernoulli-distribution deviance

3

Ist es möglich, eine Hypothese so zu ändern, dass sie mit den beobachteten Daten übereinstimmt (auch bekannt als Angelexpedition) und eine Zunahme von Fehlern des Typs I zu vermeiden?

Es ist allgemein bekannt, dass Forscher Zeit damit verbringen sollten , vorhandene Daten und Forschungsergebnisse zu beobachten und zu untersuchen, bevor sie eine Hypothese bilden und dann Daten sammeln, um diese Hypothese zu testen (unter Bezugnahme auf das Testen der Signifikanz von Nullhypothesen). Viele grundlegende Statistiken Bücher warnen , dass …

32 hypothesis-testing

1

Link Anomaly Detection im zeitlichen Netzwerk

Ich bin auf dieses Dokument gestoßen, das die Erkennung von Link-Anomalien zur Vorhersage von Trendthemen verwendet, und fand es unglaublich interessant: Das Dokument befasst sich mit dem Thema "Aufstrebende Themen in sozialen Netzwerken mithilfe der Erkennung von Link-Anomalien" . Ich würde es gerne in einem anderen Datensatz replizieren, bin aber …

32 time-series machine-learning outliers python change-point

5

AIC-Richtlinien bei der Modellauswahl

Ich benutze normalerweise BIC, da ich verstehe, dass es Parsimonie stärker schätzt als AIC. Ich habe mich jetzt jedoch für einen umfassenderen Ansatz entschieden und möchte auch AIC verwenden. Ich weiß, dass Raftery (1995) gute Richtlinien für BIC-Unterschiede vorgelegt hat: 0-2 ist schwach, 2-4 ist ein positiver Beweis dafür, dass …

32 r model-selection references aic bic

1

Vergleich zweier Modelle mit der Funktion anova () in R

Aus der Dokumentation für anova(): Wenn 'anova' eine Sequenz von Objekten erhält, werden die Modelle in der angegebenen Reihenfolge gegeneinander getestet ... Was bedeutet es, die Modelle gegeneinander zu testen? Und warum ist die Bestellung wichtig? Hier ist ein Beispiel aus dem GenABEL-Tutorial : > modelAdd = lm(qt~as.numeric(snp1)) > modelDom …

32 r anova

3

Datensätze, die für einen ähnlichen Zweck wie das Quartett von Anscombe erstellt wurden

Ich bin gerade auf Anscombes Quartett gestoßen (vier Datensätze, deren beschreibende Statistik kaum zu unterscheiden ist, deren Darstellung jedoch sehr unterschiedlich aussieht), und ich bin gespannt, ob es weitere mehr oder weniger bekannte Datensätze gibt, die die Bedeutung bestimmter Aspekte belegen statistischer Auswertungen.

32 regression data-visualization dataset

2

Gibt es eine Beispielversion der einseitigen Chebyshev-Ungleichung?

Ich interessiere mich für folgende einseitige Cantelli-Version der Chebyshev-Ungleichung : P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. Wenn Sie den Populationsmittelwert und die Varianz kennen, können Sie die Obergrenze für die Wahrscheinlichkeit der Beobachtung eines bestimmten Werts berechnen. (Das habe ich zumindest verstanden.) …

32 probability mathematical-statistics probability-inequalities mean

3

Logistische Kernel-Regression vs. SVM

Wie allen bekannt ist, kann SVM die Kernel-Methode verwenden, um Datenpunkte in höhere Räume zu projizieren, sodass Punkte durch einen linearen Raum getrennt werden können. Wir können aber auch die logistische Regression verwenden, um diese Grenze im Kernelraum zu wählen. Was sind also die Vorteile von SVM? Da SVM ein …

32 svm

4

Implementierung von CRF in Python

Gibt es eine beliebte Implementierung von bedingten Zufallsfeldern in Python ? Ich kann anscheinend keine finden, die weit verbreitet und beliebt ist!

32 machine-learning classification python conditional-random-field

5

Warum haben politische Umfragen so große Stichproben?

Als ich mir die Nachrichten ansehe, habe ich bemerkt, dass die Gallup-Umfragen für Dinge wie Präsidentschaftswahlen Stichprobengrößen von weit über 1.000 haben. Soweit ich mich an College-Statistiken erinnere, war eine Stichprobengröße von 30 eine "signifikant große" Stichprobe. Es wurde der Anschein erweckt, dass eine Stichprobengröße über 30 aufgrund sinkender Renditen …

32 sampling sample-size power-analysis

6

Was wäre ein robustes Bayes'sches Modell zur Abschätzung des Maßstabs einer annähernd normalen Verteilung?

Es gibt eine Reihe robuster Skalenschätzer . Ein bemerkenswertes Beispiel ist die mittlere absolute Abweichung, die sich auf die Standardabweichung als . In einem Bayes'schen Framework gibt es eine Reihe von Möglichkeiten, den Ort einer ungefähren Normalverteilung (z. B. einer durch Ausreißer kontaminierten Normalverteilung) zuverlässig abzuschätzen. Man könnte beispielsweise annehmen, …

32 r bayesian estimation standard-deviation robust

3

Ist es möglich, die kombinierte Standardabweichung zu finden?

Angenommen, ich habe 2 Sätze: Set A : Anzahl der Elemente , ,n=10n=10n= 10μ=2.4μ=2.4\mu = 2.4σ=0.8σ=0.8\sigma = 0.8 Set B : Anzahl der Elemente , ,n=5n=5n= 5μ=2μ=2\mu = 2σ=1.2σ=1.2\sigma = 1.2 Ich kann den kombinierten Mittelwert ( ) leicht finden, aber wie soll ich die kombinierte Standardabweichung finden?μμ\mu

32 standard-deviation