Statistiken und Big Data

29

Beispiele für den Unterricht: Korrelation bedeutet nicht Kausalität

Es gibt ein altes Sprichwort: "Korrelation bedeutet nicht Verursachung". Wenn ich unterrichte, neige ich dazu, die folgenden Standardbeispiele zu verwenden, um diesen Punkt zu veranschaulichen: Störchenzahl und Geburtenrate in Dänemark; Anzahl der Priester in Amerika und Alkoholismus; Zu Beginn des 20. Jahrhunderts wurde festgestellt, dass eine starke Korrelation zwischen der …

74 correlation teaching

5

Was ist Regularisierung im Klartext?

Im Gegensatz zu anderen Artikeln fand ich den Wikipedia- Eintrag für dieses Thema für einen Nicht-Mathematiker (wie mich) nicht lesbar. Ich habe die Grundidee verstanden, dass Sie Modelle mit weniger Regeln bevorzugen. Was ich nicht verstehe, ist, wie man von einem Regelwerk zu einem "Regularisierungs-Score" gelangt, anhand dessen man die …

74 regularization

6

Warum Gradientenabstieg für lineare Regression verwenden, wenn eine geschlossene mathematische Lösung verfügbar ist?

Ich nehme an den Online-Kursen für maschinelles Lernen teil und habe etwas über Gradient Descent gelernt, um die optimalen Werte in der Hypothese zu berechnen. h(x) = B0 + B1X Warum müssen wir Gradient Descent verwenden, wenn wir die Werte mit der folgenden Formel leicht finden können? Das sieht einfach …

73 regression machine-learning gradient-descent

6

Bedeutet keine Korrelation keine Kausalität?

Ich weiß, dass Korrelation nicht Kausalität impliziert, aber impliziert ein Fehlen von Korrelation ein Fehlen von Kausalität?

73 correlation causality

4

Ein Psychologiejournal verbot p-Werte und Konfidenzintervalle; ist es in der Tat ratsam, sie nicht mehr zu verwenden?

Am 25. Februar 2015 hat die Zeitschrift Basic and Applied Social Psychology einen Leitartikel herausgegeben , der Werte und Konfidenzintervalle aus allen zukünftigen Veröffentlichungen verbietet .ppp Konkret heißt es (Formatierung und Hervorhebung gehören mir): [...] vor der Veröffentlichung müssen die Autoren alle Überreste des NHSTP ( Werte, t- Werte, F- …

73 hypothesis-testing confidence-interval p-value effect-size psychology

3

Was ist „eingeschränkte maximale Wahrscheinlichkeit“ und wann sollte es angewendet werden?

Ich habe in der Zusammenfassung dieses Papiers gelesen, dass: "Das Maximum Likelihood (ML) -Verfahren von Hartley aud Rao wird durch Anpassen einer Transformation von Patterson und Thompson modifiziert, bei der die Wahrscheinlichkeitsrendernormalität in zwei Teile aufgeteilt wird, von denen einer frei von festen Effekten ist. Die Maximierung dieses Teils ergibt …

73 mixed-model maximum-likelihood reml

6

Modell zur Vorhersage der Anzahl der Youtube-Aufrufe von Gangnam Style

PSYs Musikvideo "Gangnam Style" ist beliebt, nach etwas mehr als 2 Monaten hat es etwa 540 Millionen Zuschauer. Ich habe das letzte Woche von meinen jugendlichen Kindern beim Abendessen erfahren und bald ging die Diskussion dahin, ob es möglich ist, eine Art Vorhersage darüber zu treffen, wie viele Zuschauer es …

73 modeling web

11

Ich habe einen Job im Data-Mining ohne einen Doktortitel

Ich habe mich eine Zeit lang sehr für Data-Mining und maschinelles Lernen interessiert , zum Teil, weil ich in der Schule einen Schwerpunkt in diesem Bereich hatte, aber auch, weil ich wirklich viel aufgeregter bin, Probleme zu lösen, die ein bisschen mehr Gedanken erfordern als nur Programmieren Wissen und dessen …

73 machine-learning data-mining careers phd

2

Resampling- / Simulationsmethoden: Monte Carlo, Bootstrapping, Jackknifing, Kreuzvalidierung, Randomisierungstests und Permutationstests

Ich versuche den Unterschied zwischen verschiedenen Resampling-Methoden (Monte-Carlo-Simulation, parametrisches Bootstrapping, nicht-parametrisches Bootstrapping, Jackknifing, Kreuzvalidierung, Randomisierungstests und Permutationstests) und deren Implementierung in meinem eigenen Kontext mithilfe von R zu verstehen. Angenommen, ich habe die folgende Situation: Ich möchte eine ANOVA mit einer Y- Variablen ( Yvar) und einer X- Variablen ( …

73 r bootstrap resampling jackknife permutation-test

2

Was ist ein "Kernel" im Klartext?

Es gibt verschiedene Verwendungszwecke: Schätzung der Kerndichte Kernel-Trick Kernel-Glättung Bitte erläutern Sie, was der "Kernel" in ihnen im Klartext in Ihren eigenen Worten bedeutet.

73 kernel-trick kernel-smoothing

15

Gute GUI für R geeignet für einen Anfänger, der Programmieren in R lernen möchte?

Gibt es eine GUI für R, die es Anfängern erleichtert, in dieser Sprache zu lernen und zu programmieren?

73 r

6

Auswählen einer Clustering-Methode

Wenn Sie die Clusteranalyse für einen Datensatz verwenden, um ähnliche Fälle zu gruppieren, müssen Sie aus einer Vielzahl von Clustermethoden und Entfernungsmaßen auswählen. Manchmal kann eine Wahl die andere beeinflussen, aber es gibt viele mögliche Kombinationen von Methoden. Hat jemand irgendwelche Empfehlungen, wie man unter den verschiedenen Clustering-Algorithmen / Methoden …

73 clustering distance-functions methodology

9

Wie soll mit Ausreißern in der linearen Regressionsanalyse umgegangen werden?

Häufig erhält ein statistischer Analytiker einen Datensatz und wird gebeten, ein Modell mit einer Technik wie der linearen Regression anzupassen. Sehr häufig wird der Datensatz mit einem Haftungsausschluss in der Art von "Oh ja, wir haben es vermasselt, einige dieser Datenpunkte zu sammeln - tun Sie, was Sie können" versehen. …

73 regression outliers

6

Gibt es einen guten Grund, PCA anstelle von EFA zu verwenden? Kann PCA auch ein Ersatz für die Faktoranalyse sein?

In einigen Disziplinen wird PCA (Principal Component Analysis) systematisch und ohne Begründung verwendet, und PCA und EFA (Exploratory Factor Analysis) werden als Synonyme betrachtet. Ich habe daher kürzlich PCA verwendet, um die Ergebnisse einer Skalenvalidierungsstudie zu analysieren (21 Punkte auf einer 7-Punkte-Likert-Skala, die 3 Faktoren zu je 7 Punkten enthalten …

73 pca factor-analysis eda

4

Warum werden neuronale Netze tiefer, aber nicht breiter?

In den letzten Jahren sind neuronale Faltungsnetze (oder vielleicht auch tiefe neuronale Netze im Allgemeinen) immer tiefer geworden, wobei die Netze auf dem neuesten Stand der Technik von 7 Schichten ( AlexNet ) auf 1000 Schichten ( Residual Nets) innerhalb von 4 Schichten übergegangen sind Jahre. Der Grund für die …

73 machine-learning classification neural-networks deep-learning conv-neural-network