Statistiken und Big Data

2

Varianz des Produkts abhängiger Variablen

Wie lautet die Formel für die Varianz des Produkts abhängiger Variablen? Bei unabhängigen Variablen ist die Formel einfach: var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 {\rm var}(XY) = E(X^{2}Y^{2}) - E(XY)^{2} = {\rm var}(X){\rm var}(Y) + {\rm var}(X)E(Y)^2 + {\rm var}(Y)E(X)^2 Aber wie lautet die Formel für korrelierte Variablen? Wie finde ich übrigens die Korrelation anhand …

31 correlation variance

3

Visualisierung einer Million, PCA-Edition

Ist es möglich, die Ergebnisse der Hauptkomponentenanalyse auf eine Weise darzustellen, die mehr Einsicht bietet als nur Übersichtstabellen? Ist es möglich, dies zu tun, wenn die Anzahl der Beobachtungen groß ist, sagen wir ~ 1e4? Und ist es möglich, es in R [andere Umgebungen willkommen] zu tun?

31 r data-visualization pca biplot

3

Zusammenhang zwischen Konfidenzintervall und teststatistischer Hypothese für t-Test

Es ist bekannt, dass Konfidenzintervalle und das Testen statistischer Hypothesen eng miteinander zusammenhängen. Meine Fragen konzentrieren sich auf den Vergleich von Mitteln für zwei Gruppen auf der Grundlage einer numerischen Variablen. Nehmen wir an, dass eine solche Hypothese mit t-test getestet wird. Auf der anderen Seite kann man für beide …

31 hypothesis-testing confidence-interval

3

Wie vergleichen sich das Goodman-Kruskal-Gamma und die Kendall-Tau- oder Spearman-Rho-Korrelationen?

In meiner Arbeit vergleichen wir vorhergesagte Rankings mit wahren Rankings für einige Datensätze. Bis vor kurzem haben wir nur Kendall-Tau verwendet. Eine Gruppe, die an einem ähnlichen Projekt arbeitete, schlug vor, stattdessen das Goodman-Kruskal-Gamma zu verwenden und es vorzuziehen. Ich habe mich gefragt, was die Unterschiede zwischen den verschiedenen Rangkorrelationsalgorithmen …

31 spearman-rho kendall-tau goodman-kruskal-gamma

1

Gibt es statistische Lehren aus der "Bible Code" -Episode?

Obwohl diese Frage etwas subjektiv ist, hoffe ich, dass sie sich als gute subjektive Frage gemäß den FAQ-Richtlinien eignet . Es basiert auf einer Frage, die Olle Häggström mir vor einem Jahr gestellt hat, und obwohl ich einige Gedanken dazu habe, habe ich keine definitive Antwort und würde mich über …

31 hypothesis-testing data-mining

1

Für welche Distributionen unterscheiden sich die Parametrisierungen in BUGS und R?

Ich habe einige Distributionen gefunden, für die BUGS und R unterschiedliche Parametrisierungen haben: Normal, log-Normal und Weibull. Für jeden von diesen erfahre ich, dass der zweite von R verwendete Parameter invers transformiert werden muss (1 / parameter), bevor er in BUGS (oder in meinem Fall JAGS) verwendet wird. Kennt jemand …

31 r distributions bugs jags parameterization

3

Eingefestigte Ansichten von p-Werten

Manchmal füge ich in Berichten einen Haftungsausschluss zu den von mir bereitgestellten p-Werten und anderen Inferenzstatistiken ein. Ich sage, da die Stichprobe nicht zufällig war, galten solche Statistiken nicht unbedingt. Mein spezifischer Wortlaut wird normalerweise in einer Fußnote angegeben: "Während Inferenzstatistiken streng genommen nur im Zusammenhang mit Zufallsstichproben anwendbar sind, …

31 inference p-value

1

Mehrfachvergleiche an einem Mixed-Effects-Modell

Ich versuche, einige Daten mit einem gemischten Effektmodell zu analysieren. Die von mir gesammelten Daten repräsentieren das Gewicht einiger Jungtiere unterschiedlichen Genotyps im Zeitverlauf. Ich verwende den hier vorgeschlagenen Ansatz: https://gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ Insbesondere verwende ich Lösung # 2 Also ich habe sowas require(nlme) model <- lme(weight ~ time * Genotype, random …

31 r anova mixed-model multiple-comparisons repeated-measures

6

Wie kann die langfristige Reproduzierbarkeit der Forschung erhöht werden (insbesondere mit R und Sweave)?

Kontext: Als Antwort auf eine frühere Frage zur reproduzierbaren Forschung schrieb Jake Ein Problem, das wir beim Erstellen unseres JASA-Archivs festgestellt haben, war, dass sich Versionen und Standardeinstellungen von CRAN-Paketen geändert haben. In diesem Archiv sind also auch die Versionen der von uns verwendeten Pakete enthalten. Das vignettenbasierte System wird …

31 r reproducible-research project-management

3

Regressionskoeffizienten, die das Vorzeichen umkehren, nachdem andere Prädiktoren einbezogen wurden

Vorstellen Sie führen eine lineare Regression mit vier numerischen Prädiktoren aus (IV1, ..., IV4). Wenn nur IV1 als Prädiktor enthalten ist, lautet die standardisierte Beta +.20 Wenn Sie auch IV2 bis IV4 einschließen, wird das Vorzeichen des standardisierten Regressionskoeffizienten von IV1 umgekehrt -.25(dh es wird negativ). Dies wirft einige Fragen …

31 regression predictor

6

Kann jemand ein Beispiel für eine unimodale Verteilung anbieten, die eine Neigung von Null hat, aber nicht symmetrisch ist?

Im Mai 2010 Wikipedia Benutzer hinzugefügt Mcorazao einen Satz zu dem Schiefe Artikel , dass „Ein Wert von Null zeigt an, dass die Werte relativ gleichmäßig auf beiden Seiten der mittleren verteilt, in der Regel , aber nicht notwendigerweise eine symmetrische Verteilung impliziert.“ Die Wiki-Seite enthält jedoch keine tatsächlichen Beispiele …

31 distributions expected-value skewness

8

Open Source Tools zur Visualisierung mehrdimensionaler Daten?

Mit welchen Open-Source-Tools werden neben gnuplot und ggobi mehrdimensionale Daten visualisiert? Gnuplot ist mehr oder weniger ein einfaches Plot-Paket. Ggobi kann eine Reihe von raffinierten Dingen erledigen, wie zum Beispiel: Animieren Sie Daten entlang einer Dimension oder zwischen diskreten Sammlungen animieren Sie lineare Kombinationen, indem Sie die Koeffizienten variieren Hauptkomponenten …

31 data-visualization open-source

2

Wann wird die logistische Regression in geschlossener Form gelöst?

Nehmen wir x∈{0,1}dx∈{0,1}dx \in \{0,1\}^d und y∈{0,1}y∈{0,1}y \in \{0,1\} und nehmen wir an, wir modellieren die Aufgabe der Vorhersage von y mit gegebenem x unter Verwendung der logistischen Regression. Wann können logistische Regressionskoeffizienten in geschlossener Form geschrieben werden? Ein Beispiel ist, wenn wir ein gesättigtes Modell verwenden. Das heißt, definiert …

31 logistic generalized-linear-model

8

Was ist eine Standardabweichung?

Was ist eine Standardabweichung, wie wird sie berechnet und wie wird sie in der Statistik verwendet?

31 standard-deviation

2

Was ist die Definition einer "Feature Map" (auch "Aktivierungskarte" genannt) in einem neuronalen Faltungsnetzwerk?

Intro Hintergrund In einem neuronalen Faltungsnetz haben wir normalerweise eine allgemeine Struktur / einen Fluss, der so aussieht: Eingabebild (dh ein 2D-Vektor x) (Die erste Faltungsschicht (Conv1) beginnt hier ...) Falten Sie eine Reihe von Filtern ( w1) entlang des 2D-Bildes (dh führen Sie die z1 = w1*x + b1Skalarproduktmultiplikationen …

31 neural-networks deep-learning conv-neural-network