Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

2
Varianz des Produkts abhängiger Variablen
Wie lautet die Formel für die Varianz des Produkts abhängiger Variablen? Bei unabhängigen Variablen ist die Formel einfach: var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 {\rm var}(XY) = E(X^{2}Y^{2}) - E(XY)^{2} = {\rm var}(X){\rm var}(Y) + {\rm var}(X)E(Y)^2 + {\rm var}(Y)E(X)^2 Aber wie lautet die Formel für korrelierte Variablen? Wie finde ich übrigens die Korrelation anhand …

3
Visualisierung einer Million, PCA-Edition
Ist es möglich, die Ergebnisse der Hauptkomponentenanalyse auf eine Weise darzustellen, die mehr Einsicht bietet als nur Übersichtstabellen? Ist es möglich, dies zu tun, wenn die Anzahl der Beobachtungen groß ist, sagen wir ~ 1e4? Und ist es möglich, es in R [andere Umgebungen willkommen] zu tun?


3
Wie vergleichen sich das Goodman-Kruskal-Gamma und die Kendall-Tau- oder Spearman-Rho-Korrelationen?
In meiner Arbeit vergleichen wir vorhergesagte Rankings mit wahren Rankings für einige Datensätze. Bis vor kurzem haben wir nur Kendall-Tau verwendet. Eine Gruppe, die an einem ähnlichen Projekt arbeitete, schlug vor, stattdessen das Goodman-Kruskal-Gamma zu verwenden und es vorzuziehen. Ich habe mich gefragt, was die Unterschiede zwischen den verschiedenen Rangkorrelationsalgorithmen …



3
Eingefestigte Ansichten von p-Werten
Manchmal füge ich in Berichten einen Haftungsausschluss zu den von mir bereitgestellten p-Werten und anderen Inferenzstatistiken ein. Ich sage, da die Stichprobe nicht zufällig war, galten solche Statistiken nicht unbedingt. Mein spezifischer Wortlaut wird normalerweise in einer Fußnote angegeben: "Während Inferenzstatistiken streng genommen nur im Zusammenhang mit Zufallsstichproben anwendbar sind, …

1
Mehrfachvergleiche an einem Mixed-Effects-Modell
Ich versuche, einige Daten mit einem gemischten Effektmodell zu analysieren. Die von mir gesammelten Daten repräsentieren das Gewicht einiger Jungtiere unterschiedlichen Genotyps im Zeitverlauf. Ich verwende den hier vorgeschlagenen Ansatz: https://gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ Insbesondere verwende ich Lösung # 2 Also ich habe sowas require(nlme) model <- lme(weight ~ time * Genotype, random …

6
Wie kann die langfristige Reproduzierbarkeit der Forschung erhöht werden (insbesondere mit R und Sweave)?
Kontext: Als Antwort auf eine frühere Frage zur reproduzierbaren Forschung schrieb Jake Ein Problem, das wir beim Erstellen unseres JASA-Archivs festgestellt haben, war, dass sich Versionen und Standardeinstellungen von CRAN-Paketen geändert haben. In diesem Archiv sind also auch die Versionen der von uns verwendeten Pakete enthalten. Das vignettenbasierte System wird …


6
Kann jemand ein Beispiel für eine unimodale Verteilung anbieten, die eine Neigung von Null hat, aber nicht symmetrisch ist?
Im Mai 2010 Wikipedia Benutzer hinzugefügt Mcorazao einen Satz zu dem Schiefe Artikel , dass „Ein Wert von Null zeigt an, dass die Werte relativ gleichmäßig auf beiden Seiten der mittleren verteilt, in der Regel , aber nicht notwendigerweise eine symmetrische Verteilung impliziert.“ Die Wiki-Seite enthält jedoch keine tatsächlichen Beispiele …

8
Open Source Tools zur Visualisierung mehrdimensionaler Daten?
Mit welchen Open-Source-Tools werden neben gnuplot und ggobi mehrdimensionale Daten visualisiert? Gnuplot ist mehr oder weniger ein einfaches Plot-Paket. Ggobi kann eine Reihe von raffinierten Dingen erledigen, wie zum Beispiel: Animieren Sie Daten entlang einer Dimension oder zwischen diskreten Sammlungen animieren Sie lineare Kombinationen, indem Sie die Koeffizienten variieren Hauptkomponenten …

2
Wann wird die logistische Regression in geschlossener Form gelöst?
Nehmen wir x∈{0,1}dx∈{0,1}dx \in \{0,1\}^d und y∈{0,1}y∈{0,1}y \in \{0,1\} und nehmen wir an, wir modellieren die Aufgabe der Vorhersage von y mit gegebenem x unter Verwendung der logistischen Regression. Wann können logistische Regressionskoeffizienten in geschlossener Form geschrieben werden? Ein Beispiel ist, wenn wir ein gesättigtes Modell verwenden. Das heißt, definiert …


2
Was ist die Definition einer "Feature Map" (auch "Aktivierungskarte" genannt) in einem neuronalen Faltungsnetzwerk?
Intro Hintergrund In einem neuronalen Faltungsnetz haben wir normalerweise eine allgemeine Struktur / einen Fluss, der so aussieht: Eingabebild (dh ein 2D-Vektor x) (Die erste Faltungsschicht (Conv1) beginnt hier ...) Falten Sie eine Reihe von Filtern ( w1) entlang des 2D-Bildes (dh führen Sie die z1 = w1*x + b1Skalarproduktmultiplikationen …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.