Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

11
Ressourcen zum Erlernen der Markov-Kette und versteckter Markov-Modelle
Ich suche nach Ressourcen (Tutorials, Lehrbücher, Webcasts usw.), um mehr über Markov Chain und HMMs zu erfahren. Ich bin Biologe und arbeite derzeit in einem bioinformatischen Projekt. Welchen mathematischen Hintergrund benötige ich, um Markov-Modelle und HMMs ausreichend zu verstehen? Ich habe mich mit Google umgesehen, aber bisher habe ich noch …

8
Ist es jemals sinnvoll, kategoriale Daten als fortlaufend zu behandeln?
Bei der Beantwortung dieser Frage zu diskreten und fortlaufenden Daten habe ich zu Recht festgestellt, dass es selten sinnvoll ist, kategoriale Daten als fortlaufend zu behandeln. Auf den ersten Blick scheint das selbstverständlich zu sein, aber Intuition ist oft ein schlechter Leitfaden für Statistiken, oder zumindest meiner. Jetzt frage ich …



3
Wann sind Log-Skalen angebracht?
Ich habe gelesen, dass die Verwendung von Protokollskalen für Diagramme / Grafiken unter bestimmten Umständen angemessen ist, wie z. B. die y-Achse in einem Zeitreihendiagramm. Es ist mir jedoch nicht gelungen, eine endgültige Erklärung dafür zu finden, warum dies der Fall ist oder wann dies sonst angebracht wäre. Denken Sie …

3
Warum ist die Standardabweichung der Stichprobe ein verzerrter Schätzer von
Nach dem Wikipedia-Artikel über unvoreingenommene Schätzung der Standardabweichung der Stichprobe SD s = 1n - 1∑i = 1n( xich- x¯¯¯)2---------------√s=1n-1∑ich=1n(Xich-X¯)2s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2} ist ein voreingenommener Schätzer der SD der Bevölkerung. Es besagt, dassE( s2--√) ≠ E( s2)-----√E(s2)≠E(s2)E(\sqrt{s^2}) \neq \sqrt{E(s^2)} . NB. Zufallsvariablen sind unabhängig und jedesXich∼ …

9
Ist es falsch, „1 von 80 Todesfällen wird durch einen Autounfall verursacht“ umzuschreiben, wenn „1 von 80 Menschen infolge eines Autounfalls sterben“?
Statement One (S1): "Einer von 80 Toten ist auf einen Autounfall zurückzuführen." Statement Two (S2): "Einer von 80 Menschen stirbt an den Folgen eines Autounfalls." Ich persönlich sehe keinen großen Unterschied zwischen diesen beiden Aussagen. Beim Schreiben würde ich sie für ein Laienpublikum als austauschbar betrachten. Allerdings haben mich jetzt …

7
Herausforderungen zwischen Industrie und Kaggle. Ist es wichtiger, mehr Beobachtungen zu sammeln und Zugang zu mehr Variablen zu haben als ausgefallene Modelle?
Ich hoffe der Titel ist selbsterklärend. In Kaggle verwenden die meisten Gewinner das Stapeln mit manchmal Hunderten von Basismodellen, um ein paar Prozent mehr MSE und Genauigkeit zu erzielen. Generell ist es Ihrer Erfahrung nach wichtig, ausgefallene Modelle wie das Stapeln und nicht nur mehr Daten und Features zu erfassen …



1
Die logistische Regression in R führte zu einer perfekten Trennung (Hauck-Donner-Phänomen). Was jetzt?
Ich versuche, ein binäres Ergebnis unter Verwendung von 50 kontinuierlichen erklärenden Variablen vorherzusagen (der Bereich der meisten Variablen ist bis ). Mein Datensatz enthält fast 24.000 Zeilen. Wenn ich in R renne, bekomme ich:−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 …

8
R Bibliotheken für tiefes Lernen
Ich habe mich gefragt, ob es da draußen gute R-Bibliotheken für tieflernende neuronale Netze gibt. Ich weiß, dass es die nnet, neuralnetund gibt RSNNS, aber keine davon scheint Deep-Learning-Methoden zu implementieren. Ich interessiere mich besonders für unbeaufsichtigtes, gefolgt von beaufsichtigtem Lernen und für die Verwendung von Abbrüchen, um eine Co-Anpassung …


6
Ist der "Hybrid" zwischen Fisher und Neyman-Pearson bei statistischen Tests wirklich ein "inkohärenter Mischmasch"?
Es gibt eine bestimmte Denkrichtung, nach der der am weitesten verbreitete Ansatz für statistische Tests ein "Hybrid" zwischen zwei Ansätzen ist: dem von Fisher und dem von Neyman-Pearson; Diese beiden Ansätze seien "inkompatibel", und daher sei der resultierende "Hybrid" ein "inkohärenter Mischmasch". Ich werde im Folgenden eine Bibliographie und einige …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.