Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren


5
Warum gibt es zwei Schreibweisen für "heteroskedastisch" oder "heteroskedastisch"?
Ich sehe häufig sowohl die Schreibweisen "heteroskedastisch" als auch "heteroskedastisch" und in ähnlicher Weise "homoskedastisch" und "homoskedastisch". Es scheint keinen Unterschied in der Bedeutung zwischen der "c" - und der "k" -Variante zu geben, sondern lediglich einen orthografischen Unterschied in Bezug auf die griechische Etymologie des Wortes. Woher stammen die …

3
Warum liefert die Inversion einer Kovarianzmatrix teilweise Korrelationen zwischen Zufallsvariablen?
Ich habe gehört, dass partielle Korrelationen zwischen Zufallsvariablen gefunden werden können, indem die Kovarianzmatrix invertiert und entsprechende Zellen aus dieser resultierenden Präzisionsmatrix entnommen werden (diese Tatsache wird in http://en.wikipedia.org/wiki/Partial_correlation erwähnt , aber ohne Beweis). . Warum ist das so?

2
Logistische Regression: Bernoulli vs. Binomial Response Variables
Ich möchte eine logistische Regression mit der folgenden Binomialantwort und mit und als meinen Prädiktoren durchführen. X1X1X_1X2X2X_2 Ich kann die gleichen Daten wie Bernoulli-Antworten im folgenden Format präsentieren. Die logistischen Regressionsausgaben für diese beiden Datensätze sind größtenteils gleich. Die Abweichungsreste und der AIC sind unterschiedlich. (Der Unterschied zwischen der Nullabweichung …

3
Ist es möglich, eine Hypothese so zu ändern, dass sie mit den beobachteten Daten übereinstimmt (auch bekannt als Angelexpedition) und eine Zunahme von Fehlern des Typs I zu vermeiden?
Es ist allgemein bekannt, dass Forscher Zeit damit verbringen sollten , vorhandene Daten und Forschungsergebnisse zu beobachten und zu untersuchen, bevor sie eine Hypothese bilden und dann Daten sammeln, um diese Hypothese zu testen (unter Bezugnahme auf das Testen der Signifikanz von Nullhypothesen). Viele grundlegende Statistiken Bücher warnen , dass …


5
AIC-Richtlinien bei der Modellauswahl
Ich benutze normalerweise BIC, da ich verstehe, dass es Parsimonie stärker schätzt als AIC. Ich habe mich jetzt jedoch für einen umfassenderen Ansatz entschieden und möchte auch AIC verwenden. Ich weiß, dass Raftery (1995) gute Richtlinien für BIC-Unterschiede vorgelegt hat: 0-2 ist schwach, 2-4 ist ein positiver Beweis dafür, dass …

1
Vergleich zweier Modelle mit der Funktion anova () in R
Aus der Dokumentation für anova(): Wenn 'anova' eine Sequenz von Objekten erhält, werden die Modelle in der angegebenen Reihenfolge gegeneinander getestet ... Was bedeutet es, die Modelle gegeneinander zu testen? Und warum ist die Bestellung wichtig? Hier ist ein Beispiel aus dem GenABEL-Tutorial : > modelAdd = lm(qt~as.numeric(snp1)) > modelDom …
32 r  anova 


2
Gibt es eine Beispielversion der einseitigen Chebyshev-Ungleichung?
Ich interessiere mich für folgende einseitige Cantelli-Version der Chebyshev-Ungleichung : P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. Wenn Sie den Populationsmittelwert und die Varianz kennen, können Sie die Obergrenze für die Wahrscheinlichkeit der Beobachtung eines bestimmten Werts berechnen. (Das habe ich zumindest verstanden.) …

3
Logistische Kernel-Regression vs. SVM
Wie allen bekannt ist, kann SVM die Kernel-Methode verwenden, um Datenpunkte in höhere Räume zu projizieren, sodass Punkte durch einen linearen Raum getrennt werden können. Wir können aber auch die logistische Regression verwenden, um diese Grenze im Kernelraum zu wählen. Was sind also die Vorteile von SVM? Da SVM ein …
32 svm 


5
Warum haben politische Umfragen so große Stichproben?
Als ich mir die Nachrichten ansehe, habe ich bemerkt, dass die Gallup-Umfragen für Dinge wie Präsidentschaftswahlen Stichprobengrößen von weit über 1.000 haben. Soweit ich mich an College-Statistiken erinnere, war eine Stichprobengröße von 30 eine "signifikant große" Stichprobe. Es wurde der Anschein erweckt, dass eine Stichprobengröße über 30 aufgrund sinkender Renditen …

6
Was wäre ein robustes Bayes'sches Modell zur Abschätzung des Maßstabs einer annähernd normalen Verteilung?
Es gibt eine Reihe robuster Skalenschätzer . Ein bemerkenswertes Beispiel ist die mittlere absolute Abweichung, die sich auf die Standardabweichung als . In einem Bayes'schen Framework gibt es eine Reihe von Möglichkeiten, den Ort einer ungefähren Normalverteilung (z. B. einer durch Ausreißer kontaminierten Normalverteilung) zuverlässig abzuschätzen. Man könnte beispielsweise annehmen, …

3
Ist es möglich, die kombinierte Standardabweichung zu finden?
Angenommen, ich habe 2 Sätze: Set A : Anzahl der Elemente , ,n=10n=10n= 10μ=2.4μ=2.4\mu = 2.4σ=0.8σ=0.8\sigma = 0.8 Set B : Anzahl der Elemente , ,n=5n=5n= 5μ=2μ=2\mu = 2σ=1.2σ=1.2\sigma = 1.2 Ich kann den kombinierten Mittelwert ( ) leicht finden, aber wie soll ich die kombinierte Standardabweichung finden?μμ\mu

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.