Statistiken und Big Data

2

Wie gut kann multiple Regression Kovariaten wirklich „kontrollieren“?

Wir alle kennen Beobachtungsstudien, die versuchen, einen Kausalzusammenhang zwischen einem nicht randomisierten Prädiktor X und einem Ergebnis herzustellen, indem jeder erdenkliche potenzielle Störfaktor in ein multiples Regressionsmodell einbezogen wird. Indem wir also alle Störfaktoren "kontrollieren", so das Argument, isolieren wir den Effekt des interessierenden Prädiktors. Ich empfinde diese Idee zunehmend …

45 multiple-regression ancova observational-study

1

Wie sind ANOVA und MANOVA vom Typ I, Typ II und Typ III zu interpretieren?

Meine Hauptfrage ist, wie die Ausgabe (Koeffizienten, F, P) bei der Durchführung einer (sequentiellen) ANOVA vom Typ I zu interpretieren ist. Mein spezielles Forschungsproblem ist etwas komplexer, deshalb werde ich mein Beispiel in Teile zerlegen. Wenn ich mich zuerst für die Auswirkung der Spinnendichte (X1) auf das Pflanzenwachstum (Y1) interessiere …

45 r hypothesis-testing anova manova sums-of-squares

6

Motivation für Kolmogorov Abstand zwischen Verteilungen

Es gibt viele Möglichkeiten zu messen, wie ähnlich zwei Wahrscheinlichkeitsverteilungen sind. Zu den (in verschiedenen Kreisen) populären Methoden gehören: der Kolmogorov-Abstand: der Überabstand zwischen den Verteilungsfunktionen; die Kantorovich-Rubinstein-Distanz: die maximale Differenz zwischen den Erwartungen bezüglich der beiden Funktionsverteilungen mit der Lipschitz-Konstante , die sich auch als die Distanz zwischen den …

45 distributions probability hypothesis-testing mathematical-statistics

8

Sind alle Modelle unbrauchbar? Ist ein genaues Modell möglich - oder sinnvoll?

Diese Frage beschäftigt mich seit über einem Monat. In der Ausgabe der Amstat News vom Februar 2015 ist ein Artikel von Berkeley-Professor Mark van der Laan zu lesen, in dem die Leute wegen der Verwendung ungenauer Modelle beschimpft werden. Er stellt fest, dass Statistik durch die Verwendung von Modellen eher …

45 machine-learning maximum-likelihood modeling nonparametric parametric

10

Was genau ist Big Data?

Mir wurde mehrmals die Frage gestellt: Was ist Big-Data? Sowohl von Schülern als auch von meinen Verwandten, die das Rummel um Statistiken und ML aufgreifen. Ich habe diesen Lebenslauf gefunden . Und ich habe das Gefühl, dass ich der einzigen Antwort dort zustimme. Die Wikipedia-Seite enthält auch einige Kommentare, aber …

44 large-data

6

Stellt der Kehrwert einer Wahrscheinlichkeit etwas dar?

Ich habe mich gefragt, ob der Kehrwert von P (X = 1) etwas Bestimmtes darstellt.

44 probability

4

Wie werden Kernel auf Feature-Maps angewendet, um andere Feature-Maps zu erstellen?

Ich versuche den Faltungsteil von neuronalen Faltungsnetzen zu verstehen. Betrachten Sie die folgende Abbildung: Ich habe keine Probleme, die erste Faltungsschicht zu verstehen, in der wir 4 verschiedene Kernel (mit der Größe ) haben, die wir mit dem Eingabebild falten, um 4 Merkmalskarten zu erhalten.k×kk×kk \times k Was ich nicht …

44 machine-learning neural-networks deep-learning conv-neural-network

4

Warum sagen Statistiker, dass ein nicht signifikantes Ergebnis bedeutet, dass Sie die Null nicht ablehnen können, anstatt die Nullhypothese zu akzeptieren?

Traditionelle statistische Tests wie der Zwei-Stichproben-T-Test konzentrieren sich darauf, die Hypothese zu beseitigen, dass es keinen Unterschied zwischen einer Funktion von zwei unabhängigen Stichproben gibt. Dann wählen wir ein Konfidenzniveau und sagen, dass wir die Nullhypothese ablehnen können, wenn die Differenz der Mittelwerte jenseits des 95% -Niveaus liegt. Wenn nicht, …

44 hypothesis-testing statistical-significance confidence-interval equivalence tost

6

Was ist Ihre Lieblingsstatistik?

Dies ist ein Favorit von mir Dieses Beispiel ist humorvoll (ein Verdienst geht an einen ehemaligen Professor von mir, Steven Gortmaker), aber ich interessiere mich auch für Grafiken, die Sie auf wunderbare Weise erfassen und statistische Erkenntnisse oder Methoden vermitteln, zusammen mit Ihren Vorstellungen dazu. Ein Eintrag pro Antwort. Diese …

44 data-visualization

5

Statistiken in wissenschaftlichen Arbeiten veröffentlicht

Ich lese viele evolutionäre / ökologische wissenschaftliche Artikel, manchmal mit dem speziellen Ziel, herauszufinden, wie Statistiken außerhalb des Lehrbuchs "in der realen Welt" verwendet werden. Normalerweise nehme ich die Statistiken in Zeitungen als Evangelium und benutze sie, um beim statistischen Lernen zu helfen. Wenn es Jahre gedauert hat, eine Zeitung …

44 publication-bias academia

1

Varianz des Produkts mehrerer Zufallsvariablen

Wir kennen die Antwort für zwei unabhängige Variablen: V a r (XY.) = E( X2Y.2) - ( E( XY.) )2= V a r ( X) V ein R ( Y) + V a r ( X) ( E( Y) )2+ V a r ( Y) ( E( X) )2Var(XY)=E(X2Y2)−(E(XY))2=Var(X)Var(Y)+Var(X)(E(Y))2+Var(Y)(E(X))2 {\rm …

44 variance random-variable independence

3

Warum wird bei der Kombination von p-Werten nicht einfach nur gemittelt?

Ich habe kürzlich die Methode von Fisher zur Kombination von p-Werten kennengelernt. Dies beruht auf der Tatsache, dass der p-Wert unter der Null einer gleichmäßigen Verteilung folgt und dass was ich für genial halte. Aber meine Frage ist, warum ich diesen verschlungenen Weg gehe? und warum nicht (was ist falsch …

44 hypothesis-testing p-value multiple-comparisons central-limit-theorem combining-p-values

1

Berechnung der Kappa-Varianz nach Cohen (und Standardfehler)

Die Kappa- Statistik ( ) wurde 1960 von Cohen [1] eingeführt, um die Übereinstimmung zwischen zwei Bewertern zu messen. Seine Varianz war jedoch seit geraumer Zeit eine Quelle von Widersprüchen.κκ\kappa Meine Frage ist, welches die beste Varianzberechnung für große Stichproben ist. Ich neige dazu zu glauben, dass das von Fleiss …

44 estimation variance reliability cohens-kappa

7

Warum sollte jemand einen Bayes'schen Ansatz mit einem "nicht informativen" unangemessenen Vorgänger anstelle des klassischen Ansatzes verwenden?

Wenn das Interesse lediglich die Parameter eines Modells schätzt (punktweise und / oder Intervallschätzung) und die vorherigen Informationen nicht zuverlässig und schwach sind (ich weiß, dass dies ein bisschen vage ist, aber ich versuche, ein Szenario zu etablieren, in dem die Wahl von a Prior ist schwierig) ... Warum sollte …

44 bayesian inference prior likelihood information

5

Optimierte Implementierungen des Random Forest-Algorithmus

Mir ist aufgefallen, dass es einige Implementierungen von Random Forest wie ALGLIB, Waffles und einige R-Pakete gibt randomForest. Kann mir jemand sagen, ob diese Bibliotheken hoch optimiert sind? Entsprechen sie im Wesentlichen den Zufallsforsten, wie in den Elementen des statistischen Lernens beschrieben, oder wurden viele zusätzliche Tricks hinzugefügt? Ich hoffe, …

44 random-forest algorithms model-evaluation