Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

2
Wie gut kann multiple Regression Kovariaten wirklich „kontrollieren“?
Wir alle kennen Beobachtungsstudien, die versuchen, einen Kausalzusammenhang zwischen einem nicht randomisierten Prädiktor X und einem Ergebnis herzustellen, indem jeder erdenkliche potenzielle Störfaktor in ein multiples Regressionsmodell einbezogen wird. Indem wir also alle Störfaktoren "kontrollieren", so das Argument, isolieren wir den Effekt des interessierenden Prädiktors. Ich empfinde diese Idee zunehmend …

1
Wie sind ANOVA und MANOVA vom Typ I, Typ II und Typ III zu interpretieren?
Meine Hauptfrage ist, wie die Ausgabe (Koeffizienten, F, P) bei der Durchführung einer (sequentiellen) ANOVA vom Typ I zu interpretieren ist. Mein spezielles Forschungsproblem ist etwas komplexer, deshalb werde ich mein Beispiel in Teile zerlegen. Wenn ich mich zuerst für die Auswirkung der Spinnendichte (X1) auf das Pflanzenwachstum (Y1) interessiere …

6
Motivation für Kolmogorov Abstand zwischen Verteilungen
Es gibt viele Möglichkeiten zu messen, wie ähnlich zwei Wahrscheinlichkeitsverteilungen sind. Zu den (in verschiedenen Kreisen) populären Methoden gehören: der Kolmogorov-Abstand: der Überabstand zwischen den Verteilungsfunktionen; die Kantorovich-Rubinstein-Distanz: die maximale Differenz zwischen den Erwartungen bezüglich der beiden Funktionsverteilungen mit der Lipschitz-Konstante , die sich auch als die Distanz zwischen den …


10
Was genau ist Big Data?
Mir wurde mehrmals die Frage gestellt: Was ist Big-Data? Sowohl von Schülern als auch von meinen Verwandten, die das Rummel um Statistiken und ML aufgreifen. Ich habe diesen Lebenslauf gefunden . Und ich habe das Gefühl, dass ich der einzigen Antwort dort zustimme. Die Wikipedia-Seite enthält auch einige Kommentare, aber …
44 large-data 


4
Wie werden Kernel auf Feature-Maps angewendet, um andere Feature-Maps zu erstellen?
Ich versuche den Faltungsteil von neuronalen Faltungsnetzen zu verstehen. Betrachten Sie die folgende Abbildung: Ich habe keine Probleme, die erste Faltungsschicht zu verstehen, in der wir 4 verschiedene Kernel (mit der Größe ) haben, die wir mit dem Eingabebild falten, um 4 Merkmalskarten zu erhalten.k×kk×kk \times k Was ich nicht …

4
Warum sagen Statistiker, dass ein nicht signifikantes Ergebnis bedeutet, dass Sie die Null nicht ablehnen können, anstatt die Nullhypothese zu akzeptieren?
Traditionelle statistische Tests wie der Zwei-Stichproben-T-Test konzentrieren sich darauf, die Hypothese zu beseitigen, dass es keinen Unterschied zwischen einer Funktion von zwei unabhängigen Stichproben gibt. Dann wählen wir ein Konfidenzniveau und sagen, dass wir die Nullhypothese ablehnen können, wenn die Differenz der Mittelwerte jenseits des 95% -Niveaus liegt. Wenn nicht, …

6
Was ist Ihre Lieblingsstatistik?
Dies ist ein Favorit von mir Dieses Beispiel ist humorvoll (ein Verdienst geht an einen ehemaligen Professor von mir, Steven Gortmaker), aber ich interessiere mich auch für Grafiken, die Sie auf wunderbare Weise erfassen und statistische Erkenntnisse oder Methoden vermitteln, zusammen mit Ihren Vorstellungen dazu. Ein Eintrag pro Antwort. Diese …

5
Statistiken in wissenschaftlichen Arbeiten veröffentlicht
Ich lese viele evolutionäre / ökologische wissenschaftliche Artikel, manchmal mit dem speziellen Ziel, herauszufinden, wie Statistiken außerhalb des Lehrbuchs "in der realen Welt" verwendet werden. Normalerweise nehme ich die Statistiken in Zeitungen als Evangelium und benutze sie, um beim statistischen Lernen zu helfen. Wenn es Jahre gedauert hat, eine Zeitung …




7
Warum sollte jemand einen Bayes'schen Ansatz mit einem "nicht informativen" unangemessenen Vorgänger anstelle des klassischen Ansatzes verwenden?
Wenn das Interesse lediglich die Parameter eines Modells schätzt (punktweise und / oder Intervallschätzung) und die vorherigen Informationen nicht zuverlässig und schwach sind (ich weiß, dass dies ein bisschen vage ist, aber ich versuche, ein Szenario zu etablieren, in dem die Wahl von a Prior ist schwierig) ... Warum sollte …

5
Optimierte Implementierungen des Random Forest-Algorithmus
Mir ist aufgefallen, dass es einige Implementierungen von Random Forest wie ALGLIB, Waffles und einige R-Pakete gibt randomForest. Kann mir jemand sagen, ob diese Bibliotheken hoch optimiert sind? Entsprechen sie im Wesentlichen den Zufallsforsten, wie in den Elementen des statistischen Lernens beschrieben, oder wurden viele zusätzliche Tricks hinzugefügt? Ich hoffe, …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.