Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

4
Was ist die Übersetzungsinvarianz in der Bildverarbeitung und im neuronalen Faltungsnetzwerk?
Ich habe noch keinen Computer Vision Hintergrund. Wenn ich jedoch Artikel und Artikel über Bildverarbeitung und Faltungsneuralnetze lese, stelle ich mich ständig dem Begriff translation invariance, oder translation invariant. Oder ich habe viel gelesen, dass die Faltungsoperation bietet translation invariance? !! was bedeutet das? Ich selbst habe es immer für …

1
Wann ist eine verschachtelte Kreuzvalidierung wirklich erforderlich und kann einen praktischen Unterschied bewirken?
Wenn Sie eine Kreuzvalidierung für die Modellauswahl (wie z. B. die Optimierung von Hyperparametern) verwenden und die Leistung des besten Modells bewerten, sollten Sie eine verschachtelte Kreuzvalidierung verwenden . Die äußere Schleife dient zur Bewertung der Leistung des Modells, und die innere Schleife dient zur Auswahl des besten Modells. Das …

6
Warum sollte der Nenner des Kovarianzschätzers nicht n-2 statt n-1 sein?
Der Nenner des (unverzerrten) Varianzschätzers ist n−1n−1n-1 da nnn Beobachtungen vorliegen und nur ein Parameter geschätzt wird. V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} Aus dem gleichen Grund frage ich mich, warum der Nenner der Kovarianz nicht n−2n−2n-2 wenn zwei Parameter geschätzt werden. Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

10
Warum wird angenommen, dass die Überlebenszeiten exponentiell verteilt sind?
Ich lerne die Überlebensanalyse aus diesem Beitrag über UCLA IDRE und bin in Abschnitt 1.2.1 aufgefallen . Das Tutorial sagt: ... wenn bekannt ist, dass die Überlebenszeiten exponentiell verteilt sind , dann die Wahrscheinlichkeit, eine Überlebenszeit zu beobachten ... Warum wird angenommen, dass die Überlebenszeiten exponentiell verteilt sind? Es erscheint …

3
Was sind die Unterschiede zwischen "Epoche", "Batch" und "Minibatch"?
Soweit ich weiß, verwendet jemand bei der Übernahme von Stochastic Gradient Descent als Lernalgorithmus 'epoch' für den vollständigen Datensatz und 'batch' für Daten, die in einem einzelnen Aktualisierungsschritt verwendet werden, während ein anderer 'batch' bzw. 'minibatch' verwendet und Die anderen verwenden "Epoche" und "Minibatch". Dies bringt viel Verwirrung bei der …

5
Ist der p-Wert im Wesentlichen nutzlos und gefährlich in der Anwendung?
Dieser Artikel " The Odds, Continually Updated" von der NY Times erregte meine Aufmerksamkeit. Um es kurz zu machen, heißt es dort [Bayesian Statistics] erweist sich als besonders nützlich bei der Bewältigung komplexer Probleme, einschließlich der Suche nach dem vermissten Fischer John Aldridge, wie sie die Küstenwache 2013 durchgeführt hat …

2
Wie vertrauenswürdig sind die Konfidenzintervalle für ältere Objekte durch das Effektpaket?
Effectspackage bietet eine sehr schnelle und bequeme Möglichkeit , lineare Mischeffekt-Modellergebnisse zu zeichnen, die mit lme4package erhalten wurden . Die effectFunktion berechnet Konfidenzintervalle (CIs) sehr schnell, aber wie vertrauenswürdig sind diese Konfidenzintervalle? Beispielsweise: library(lme4) library(effects) library(ggplot) data(Pastes) fm1 <- lmer(strength ~ batch + (1 | cask), Pastes) effs <- as.data.frame(effect(c("batch"), …


5
Die Bedeutung von „positiver Abhängigkeit“ als Bedingung für die Verwendung der für die FDR-Kontrolle üblichen Methode
Benjamini und Hochberg entwickelten die erste (und meines Erachtens immer noch am weitesten verbreitete) Methode zur Kontrolle der Falschentdeckungsrate (FDR). Ich möchte mit einer Reihe von P-Werten beginnen, von denen jeder für einen anderen Vergleich dient, und entscheiden, welche niedrig genug sind, um als "Entdeckung" bezeichnet zu werden, und den …

2
Logistische Regression vs. LDA als Zwei-Klassen-Klassifizierer
Ich versuche, mich mit dem statistischen Unterschied zwischen linearer Diskriminanzanalyse und logistischer Regression auseinanderzusetzen . Wenn ich richtig verstehe , sagt LDA für ein Zweiklassen- Klassifizierungsproblem zwei Normaldichtefunktionen (eine für jede Klasse) voraus, die eine lineare Grenze dort bilden, wo sie sich schneiden, während die logistische Regression nur die ungerade …

4
Wie werden Koeffizienten aus einer Polynommodellanpassung interpretiert?
Ich versuche, ein Polynom zweiter Ordnung zu erstellen, das zu einigen meiner Daten passt. Angenommen, ich zeichne diese Übereinstimmung mit ggplot(): ggplot(data, aes(foo, bar)) + geom_point() + geom_smooth(method="lm", formula=y~poly(x, 2)) Ich bekomme: Eine Passung zweiter Ordnung funktioniert also ganz gut. Ich berechne es mit R: summary(lm(data$bar ~ poly(data$foo, 2))) Und …


6
Wie kann ich analytisch nachweisen, dass eine zufällige Aufteilung eines Betrags zu einer exponentiellen Verteilung (von z. B. Einkommen und Vermögen) führt?
In diesem aktuellen Artikel in SCIENCE wird Folgendes vorgeschlagen: Angenommen, Sie teilen 500 Millionen Einkommen zufällig auf 10.000 Personen auf. Es gibt nur einen Weg, um jedem 50.000 gleiche Anteile zu geben. Wenn Sie also Ihre Einnahmen nach dem Zufallsprinzip streichen, ist Gleichstellung äußerst unwahrscheinlich. Aber es gibt unzählige Möglichkeiten, …


3
Ableiten einer Varianz-Kovarianz-Matrix von Koeffizienten in linearer Regression
Ich lese gerade ein Buch über lineare Regression und habe Probleme, die Varianz-Kovarianz-Matrix von zu verstehen :bb\mathbf{b} Die diagonalen Elemente sind einfach genug, aber die nicht diagonalen sind etwas schwieriger. Was mich ist, dass σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1 \sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1 Von und …
36 regression 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.