Statistiken und Big Data

5

Zentraler Grenzwertsatz für Stichprobenmediane

Wenn ich den Median einer ausreichend großen Anzahl von Beobachtungen aus derselben Verteilung berechne, gibt der zentrale Grenzwertsatz dann an, dass die Verteilung der Mediane einer Normalverteilung nahekommt? Ich verstehe, dass dies mit den Mitteln einer großen Anzahl von Proben zutrifft, aber gilt dies auch für Mediane? Wenn nicht, wie …

54 normal-distribution mathematical-statistics sampling median central-limit-theorem

9

Nachschlagewerk zur linearen Algebra in der Statistik?

Ich habe eine Weile in R gearbeitet und war mit Dingen wie PCA, SVD, QR-Zerlegungen und vielen solchen linearen Algebra-Ergebnissen konfrontiert (wenn ich die Schätzung gewichteter Regressionen und dergleichen untersuche), also wollte ich wissen, ob jemand eine Empfehlung für eine Ware hat umfassendes Buch zur linearen Algebra, das nicht zu …

54 references matrix linear-algebra weighted-regression

8

Ist Stichproben in Zeiten von Big Data relevant?

Oder eher "wird es sein"? Big Data macht Statistiken und relevantes Wissen umso wichtiger, scheint aber die Stichprobentheorie zu unterschätzen. Ich habe diesen Hype um 'Big Data' gesehen und frage mich, warum ich alles analysieren möchte . Gab es nicht einen Grund, warum "Sampling Theory" entworfen / implementiert / erfunden …

54 sampling data-mining large-data

10

Wie bestimme ich die richtige Anzahl von Clustern?

Wir finden die Cluster-Zentren und weisen k verschiedenen Cluster-Klassen Punkte zu. Dies ist ein sehr bekannter Algorithmus, der fast in jedem maschinellen Lernpaket im Netz zu finden ist. Aber der fehlende und wichtigste Teil meiner Meinung nach ist die Wahl eines korrekten k. Was ist der beste Wert dafür? Und …

54 clustering k-means

2

Benötigen wir einen globalen Test vor Post-Hoc-Tests?

Ich höre oft, dass Post-hoc-Tests nach einer ANOVA nur verwendet werden können, wenn die ANOVA selbst signifikant war. Bei Post-Hoc-Tests werden jedoch die Werte angepasst, um die globale Typ-I-Fehlerrate bei 5% zu halten, nicht wahr?ppp Warum brauchen wir also zuerst den globalen Test? Wenn wir keinen globalen Test benötigen, ist …

54 anova statistical-significance post-hoc

3

Standardabweichung der Standardabweichung

Was ist ein Schätzer der Standardabweichung der Standardabweichung, wenn eine Normalität der Daten angenommen werden kann?

54 estimation standard-deviation normality-assumption

6

Einführung in die Statistik für Mathematiker

Was ist eine gute Einführung in die Statistik für einen Mathematiker, der sich mit Wahrscheinlichkeiten bereits auskennt? Ich habe zwei unterschiedliche Gründe zu fragen, die durchaus zu unterschiedlichen Vorschlägen führen können: Ich möchte die statistische Motivation hinter vielen Problemen, die von Probabilisten betrachtet werden, besser verstehen. Ich möchte wissen, wie …

54 references

5

Ist es eine gute Idee, die p-Werte in einer multiplen Regression für multiple Vergleiche anzupassen?

Nehmen wir an, Sie sind ein sozialwissenschaftlicher Forscher / Ökonometriker, der versucht, relevante Prädiktoren für die Nachfrage nach einer Dienstleistung zu finden. Sie haben 2 ergebnis- / abhängige Variablen, die den Bedarf beschreiben (unter Verwendung des Dienstes yes / no und der Anzahl der Fälle). Sie haben 10 Prädiktor- / …

54 regression multivariate-analysis predictive-models multiple-regression multiple-comparisons

7

Bester PCA-Algorithmus für eine Vielzahl von Funktionen (> 10K)?

Ich habe dies zuvor bei StackOverflow gefragt, aber es scheint, als wäre es hier angemessener, da es auf SO keine Antworten gab. Es ist eine Art Schnittstelle zwischen Statistik und Programmierung. Ich muss Code schreiben, um PCA (Principal Component Analysis) durchzuführen. Ich habe die bekannten Algorithmen durchgesehen und diese implementiert …

54 pca algorithms model-evaluation high-dimensional

19

Mathematische Statistik Videos

Eine Frage suchte zuvor nach Empfehlungen für Lehrbücher zur mathematischen Statistik Kennt jemand eine gute Online- Videovorlesung über mathematische Statistik ? Die nächsten, die ich gefunden habe, sind: Maschinelles lernen Ökonometrie UPDATE: Bei einigen der unten aufgeführten Vorschläge handelt es sich um gute Videos vom Typ Statistik 101. Ich frage …

54 mathematical-statistics references

3

Multivariate lineare Regression gegen neuronales Netz?

In einigen Fällen scheint es möglich zu sein, ähnliche Ergebnisse wie bei einem neuronalen Netzwerk mit einer multivariaten linearen Regression zu erzielen, und die multivariate lineare Regression ist superschnell und einfach. Unter welchen Umständen können neuronale Netze bessere Ergebnisse liefern als multivariate lineare Regression?

54 regression multiple-regression neural-networks

5

Was ist eine intuitive Erklärung dafür, wie sich PCA von einem geometrischen Problem (mit Abständen) zu einem linearen Algebraproblem (mit Eigenvektoren) entwickelt?

Ich habe viel über PCA gelesen, einschließlich verschiedener Tutorials und Fragen (wie diese , diese , diese und diese ). Das geometrische Problem, das PCA zu optimieren versucht, ist mir klar: PCA versucht, die erste Hauptkomponente durch Minimierung des Rekonstruktionsfehlers (Projektionsfehlers) zu finden, wodurch gleichzeitig die Varianz der projizierten Daten …

54 pca optimization linear-algebra intuition

10

Hold-out-Validierung vs. Cross-Validierung

Mir scheint, dass eine Hold-out-Validierung nutzlos ist. Das heißt, die Aufteilung des Originaldatensatzes in zwei Teile (Training und Testen) und die Verwendung der Testergebnisse als Verallgemeinerungsmaßnahme ist etwas nutzlos. Die K-fache Kreuzvalidierung scheint bessere Annäherungen an die Generalisierung zu liefern (da sie in jedem Punkt trainiert und testet). Warum sollten …

54 machine-learning cross-validation validation

4

Kovarianz und Unabhängigkeit?

Ich habe aus meinem Lehrbuch gelesen, dass nicht garantiert, dass X und Y unabhängig sind. Aber wenn sie unabhängig sind, muss ihre Kovarianz 0 sein. Ich konnte mir noch kein richtiges Beispiel vorstellen; könnte jemand eine besorgen?cov(X,Y)=0cov(X,Y)=0\text{cov}(X,Y)=0

54 independence covariance

5

Zur Bedeutung der iid-Annahme beim statistischen Lernen

Beim statistischen Lernen wird implizit oder explizit immer davon ausgegangen, dass die Trainingsmenge aus Eingabe- / Antworttupeln besteht , die unabhängig voneinander aus derselben gemeinsamen Verteilung gezogen werden mitD ={ X , y }D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}NNN( Xich, yich)(Xich,yich)({\bf{X}}_i,y_i) P ( X ,y)P(X,y)\mathbb{P}({\bf{X}},y) p ( X , …

54 machine-learning cross-validation non-independent iid