Statistiken und Big Data

Fragen und Antworten für Personen, die sich für Statistik, maschinelles Lernen, Datenanalyse, Data Mining und Datenvisualisierung interessieren

8
Buch zum Lesen vor Elementen des statistischen Lernens?
Basierend auf diesem Beitrag möchte ich Elemente des statistischen Lernens verdauen. Zum Glück ist es kostenlos erhältlich und ich habe angefangen, es zu lesen. Ich habe nicht genug Wissen, um es zu verstehen. Können Sie ein Buch empfehlen, das eine bessere Einführung in die Themen des Buches bietet? Hoffentlich etwas, …


6
Ist die Gratregression in hohen Dimensionen nutzlos (
Betrachten Sie ein gutes altes Regressionsproblem mit Prädiktoren und Stichprobengröße . Die übliche Weisheit ist, dass der OLS-Schätzer zu hoch ist und im Allgemeinen von dem Kamm-Regressions-Schätzer übertroffen wird:Es ist Standard, eine Kreuzvalidierung zu verwenden, um einen optimalen Regularisierungsparameter . Hier verwende ich einen 10-fachen Lebenslauf. Klarstellungsaktualisierung: Wenn , verstehe …

3
Wie definieren wir reproduzierbare Forschung?
Dies ist jetzt in ein paar Fragen aufgetaucht, und ich habe mich über etwas gewundert. Hat sich das Feld insgesamt in Richtung "Reproduzierbarkeit" bewegt, wobei der Schwerpunkt auf der Verfügbarkeit der Originaldaten und des fraglichen Codes liegt? Mir wurde immer beigebracht, dass der Kern der Reproduzierbarkeit nicht unbedingt die Fähigkeit …




1
One-Hot vs Dummy-Codierung in Scikit-Learn
Es gibt zwei verschiedene Möglichkeiten, kategoriale Variablen zu codieren. Angenommen, eine kategoriale Variable hat n Werte. One-Hot-Codierung konvertiert es in n Variablen, während Dummy-Codierung es in n-1 Variablen konvertiert . Wenn wir k kategoriale Variablen haben, von denen jede n Werte hat. Eine heiße Codierung endet mit kn- Variablen, während …

2
Gibt es einen Unterschied zwischen "Steuern auf" und "Ignorieren" anderer Variablen bei multipler Regression?
Der Koeffizient einer erklärenden Variablen in einer multiplen Regression gibt Aufschluss über die Beziehung dieser erklärenden Variablen zur abhängigen Variablen. All dies, während für die anderen erklärenden Variablen 'steuern'. Wie ich es bisher gesehen habe: Während jeder Koeffizient berechnet wird, werden die anderen Variablen nicht berücksichtigt, so dass ich sie …

3
Was ist die Intuition hinter SVD?
Ich habe über Singular Value Decomposition (SVD) gelesen. In fast allen Lehrbüchern wird erwähnt, dass es die Matrix in drei Matrizen mit gegebener Spezifikation zerlegt. Aber was ist die Intuition hinter der Aufspaltung der Matrix in einer solchen Form? PCA und andere Algorithmen zur Dimensionsreduzierung sind in dem Sinne intuitiv, …


1
Erhalten von vorhergesagten Werten (Y = 1 oder 0) aus einer logistischen Regressionsmodellanpassung
Nehmen wir an, ich habe ein Klassenobjekt glm(das einem logistischen Regressionsmodell entspricht) und möchte die predict.glmmit dem Argument angegebenen vorhergesagten Wahrscheinlichkeiten type="response"in binäre Antworten umwandeln, dh oder . Was ist der schnellste und kanonischste Weg, dies in R zu tun?Y.= 1Y=1Y=1Y.= 0Y=0Y=0 Auch predict.glmwenn mir bewusst ist , dass ich …

4
Warum sollte man sich beim Anpassen von SVM mit dem doppelten Problem beschäftigen?
Angesichts der Datenpunkte und Etiketten y 1 , ... , y n ∈ { - 1 , 1 } , das Problem harter Rand SVM Ur istx1,…,xn∈Rdx1,…,xn∈Rdx_1, \ldots, x_n \in \mathbb{R}^dy1,…,yn∈{−1,1}y1,…,yn∈{−1,1}y_1, \ldots, y_n \in \left \{-1, 1 \right\} s.t.minimizew,w012wTwminimizew,w012wTw \text{minimize}_{w, w_0} \quad \frac{1}{2} w^T w s.t.∀i:yi(wTxi+w0)≥1s.t.∀i:yi(wTxi+w0)≥1 \text{s.t.} \quad \forall i: …
50 svm 

16
Empfohlene Bücher zur Versuchsplanung?
Was sind die Empfehlungen des Gremiums für Bücher zur Versuchsplanung? Im Idealfall sollten Bücher noch gedruckt oder elektronisch erhältlich sein, obwohl dies möglicherweise nicht immer möglich ist. Wenn Sie ein paar Worte dazu sagen möchten, was an dem Buch so gut ist, wäre das auch großartig. Streben Sie außerdem ein …

4
Warum entspricht ANOVA der linearen Regression?
Ich habe gelesen, dass ANOVA und lineare Regression dasselbe sind. Wie kann das sein, wenn man bedenkt, dass die Ausgabe von ANOVA ein Wert und ein Wert ist, auf deren Grundlage Sie schließen, ob die Stichprobenmittelwerte über die verschiedenen Stichproben hinweg gleich oder unterschiedlich sind.pFFFppp Unter der Annahme, dass die …
50 regression  anova 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.