Statistiken und Big Data

16

Welche missbräuchlichen statistischen Begriffe sind zu korrigieren?

Statistik ist überall; Die gebräuchliche Verwendung statistischer Begriffe ist jedoch häufig unklar. Die Begriffe Wahrscheinlichkeit und Gewinnchancen werden trotz ihrer gut definierten und unterschiedlichen mathematischen Ausdrücke im Laien-Englisch austauschbar verwendet. Wenn man den Begriff Wahrscheinlichkeit nicht von der Wahrscheinlichkeit trennt, verwirrt dies Ärzte routinemäßig, die versuchen, die Wahrscheinlichkeit von Brustkrebs …

103 terminology

19

Wie ärgert man einen statistischen Schiedsrichter?

Ich habe kürzlich eine Frage zu allgemeinen Grundsätzen für die Überprüfung von Statistiken in Veröffentlichungen gestellt . Was ich jetzt fragen möchte, ist, was Sie beim Überprüfen einer Arbeit besonders irritiert, dh was ist der beste Weg, um einen statistischen Schiedsrichter wirklich zu ärgern! Ein Beispiel pro Antwort, bitte.

102 references referee

5

Unterschiede zwischen Kreuzvalidierung und Bootstrapping zur Abschätzung des Vorhersagefehlers

Ich möchte, dass Ihre Gedanken zu den Unterschieden zwischen Kreuzvalidierung und Bootstrapping den Vorhersagefehler abschätzen. Funktioniert man besser für kleine Datenmengen oder große Datenmengen?

102 cross-validation predictive-models bootstrap

2

Die Entfernung des statistisch signifikanten Intercept-Terms erhöht im linearen Modell

In einem einfachen linearen Modell mit einer einzelnen erklärenden Variablen αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i Ich finde, dass das Entfernen des Intercept-Terms die Anpassung stark verbessert (der Wert von geht von 0,3 auf 0,9). Der Intercept-Term scheint jedoch statistisch signifikant zu sein.R2R2R^2 Mit abfangen: Call: lm(formula = …

101 r linear-model interpretation r-squared intercept

3

Batch-Gefälle versus stochastisches Gefälle

Angenommen, wir haben eine Trainingsmenge ( x( i ), y( i ))(x(i),y(i))(x_{(i)}, y_{(i)}) für i = 1 , ... , mi=1,…,mi = 1, \dots, m . Angenommen, wir führen eine Art von überwachtem Lernalgorithmus für den Trainingssatz aus. Hypothesen werden dargestellt als hθ( x( i )) = θ0+ θ1X( i …

101 optimization gradient-descent sgd

8

ASA diskutiert Einschränkungen von

Wir haben bereits mehrere Threads als p-Werte markiert , die viele Missverständnisse über sie aufdecken. Vor zehn Monaten hatten wir einen Thread über ein psychologisches Journal, das ppp Werte "verbot" . Jetzt sagt die American Statistical Association (2016) , dass wir mit unserer Analyse "nicht mit der Berechnung eines Werts …

100 hypothesis-testing bayesian p-value frequentist

10

Was ist der Unterschied zwischen Korrelation und einfacher linearer Regression?

Insbesondere beziehe ich mich auf den Pearson-Produkt-Moment-Korrelationskoeffizienten.

99 correlation regression

14

Bücher zur selbststudierenden Zeitreihenanalyse?

Ich habe mit der Zeitreihenanalyse von Hamilton begonnen, bin aber hoffnungslos verloren. Dieses Buch ist wirklich zu theoretisch, als dass ich es allein lernen könnte. Hat jemand eine Empfehlung für ein Lehrbuch zur Zeitreihenanalyse, das zum Selbststudium geeignet ist?

99 time-series self-study references

25

Auffinden frei verfügbarer Datenproben

Ich habe an einer neuen Methode zum Analysieren und Analysieren von Datensätzen gearbeitet, um Untergruppen einer Population zu identifizieren und zu isolieren, ohne vorher die Merkmale einer Untergruppe zu kennen. Während die Methode mit Stichproben künstlicher Daten (dh Datensätzen, die speziell zum Identifizieren und Trennen von Teilmengen der Bevölkerung erstellt …

98 dataset sample population teaching

9

Funktionieren p-Werte wirklich so? Kann eine Million Forschungsarbeiten pro Jahr auf Zufälligkeit beruhen?

Ich bin sehr neu in der Statistik und lerne gerade, die Grundlagen zu verstehen, einschließlich der Werte. Aber ich habe gerade ein großes Fragezeichen im Kopf und hoffe, dass mein Verständnis falsch ist. Hier ist mein Denkprozess:ppp Sind nicht alle Forschungen auf der Welt ähnlich wie die Affen im "Satz …

98 hypothesis-testing statistical-significance p-value

1

Bedingte Inferenzbäume im Vergleich zu traditionellen Entscheidungsbäumen

Kann jemand die Hauptunterschiede zwischen bedingten Inferenzbäumen ( ctreeaus dem partyPaket in R) im Vergleich zu den traditionelleren Entscheidungsbaumalgorithmen (wie rpartin R) erklären ? Was unterscheidet CI-Bäume? Stärken und Schwächen? Update: Ich habe mir das Papier von Horthorn et al. Angesehen, auf das Chi in den Kommentaren Bezug nimmt. Ich …

97 r machine-learning cart

9

Was ist der Unterschied zwischen der linearen Regression auf y mit x und x mit y?

Der Pearson-Korrelationskoeffizient von x und y ist der gleiche, unabhängig davon, ob Sie Pearson (x, y) oder Pearson (y, x) berechnen. Dies legt nahe, dass eine lineare Regression von y bei x oder x bei y gleich sein sollte, aber ich denke nicht, dass dies der Fall ist. Kann jemand …

97 regression correlation linear-model pearson-r

6

Warum L1-Norm für spärliche Modelle?

Ich lese die Bücher über lineare Regression. Es gibt einige Sätze zur L1- und L2-Norm. Ich kenne sie, verstehe nur nicht, warum L1-Norm für spärliche Modelle. Kann jemand eine einfache Erklärung geben?

97 regression lasso regularization ridge-regression

3

Intuitive Erklärung der Einheitswurzel

Wie würden Sie im Rahmen des Unit-Root-Tests intuitiv erklären, was eine Unit-Root ist? Ich denke in einer Art zu erklären, wie ich sie in dieser Frage begründet habe . Der Fall mit Unit Root ist, dass ich (im Übrigen wenig) weiß, dass der Unit Root-Test zum Testen der Stationarität in …

97 intuition unit-root

4

Wie kann man intuitiv erklären, was ein Kernel ist?

Bei vielen maschinellen Lernklassifikatoren (z. B. Support-Vektor-Maschinen) kann ein Kernel angegeben werden. Was wäre eine intuitive Art zu erklären, was ein Kernel ist? Ein Aspekt, über den ich nachgedacht habe, ist die Unterscheidung zwischen linearen und nichtlinearen Kerneln. In einfachen Worten könnte ich von "linearen Entscheidungsfunktionen" und "nichtlinearen Entscheidungsfunktionen" sprechen. …

97 machine-learning svm references kernel-trick intuition