Statistiken und Big Data python

6

Ressourcen zum Erlernen der Implementierung von Ensemble-Methoden

Ich verstehe theoretisch (sozusagen), wie sie funktionieren würden, bin mir aber nicht sicher, wie ich eine Ensemble-Methode anwenden soll (z. B. Abstimmung, gewichtete Mischungen usw.). Was sind gute Ressourcen für die Implementierung von Ensemble-Methoden? Gibt es spezielle Ressourcen für die Implementierung in Python? BEARBEITEN: Um einige anhand der Diskussion zu …

13 machine-learning python ensemble

3

Ruby als Statistik-Workbench

Dies ist auch eine Frage, die sehr viel mit Python als Statistik-Workbench und mit Excel als Statistik-Workbench zu tun hat . Ich weiß, es gibt eine große Diskussion über Ruby gegen Python, aber das ist nicht der Punkt in dieser Frage. Ich dachte, dass Ruby, der schneller als Python ist …

13 r python software ruby

4

Gibt es Tutorials zur Bayes'schen Wahrscheinlichkeitstheorie oder grafische Modelle anhand von Beispielen?

Ich habe Hinweise auf das Erlernen der Bayes'schen Wahrscheinlichkeitstheorie in R gesehen und mich gefragt, ob es mehr davon gibt, vielleicht speziell in Python? Auf das Erlernen der Bayes'schen Wahrscheinlichkeitstheorie, der Inferenz, der Maximum-Likelihood-Schätzung, grafischer Modelle und der Art ausgerichtet?

13 machine-learning bayesian python graphical-model

9

Mehr Entscheidungsbäume in Python? [geschlossen]

Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen vor 4 Monaten . Gibt es eine gute Python-Bibliothek zum Trainieren von Boosted Decision Trees?

13 python cart boosting

2

Verwenden von BIC zum Schätzen der Anzahl von k in KMEANS

Ich versuche derzeit, den BIC für meinen Spielzeugdatensatz (ofc iris (:)) zu berechnen. Ich möchte die hier gezeigten Ergebnisse reproduzieren (Abb. 5). Dieses Papier ist auch meine Quelle für die BIC-Formeln. Ich habe 2 Probleme damit: Notation: nichnichn_i = Anzahl der Elemente in Clusterichichi CichCichC_i = Mittelkoordinaten des Clustersichichi xjxjx_j …

13 python k-means scikit-learn bic

2

Wie benutze ich einen Kalman-Filter?

Ich habe eine Flugbahn eines Objekts in einem 2D-Raum (einer Oberfläche). Die Flugbahn wird als eine Folge von (x,y)Koordinaten angegeben. Ich weiß, dass meine Messungen laut sind und ich manchmal offensichtliche Ausreißer habe. Also möchte ich meine Beobachtungen filtern. Soweit ich Kalman Filter verstanden habe, tut es genau das, was …

12 python kalman-filter smoothing

1

GBM-Paket vs. Caret mit GBM

Ich habe das Modell mit optimiert caret, aber dann das Modell mit dem gbmPaket erneut ausgeführt. Nach meinem Verständnis sollten das verwendete caretPaket gbmund die Ausgabe identisch sein. Nur ein kurzer Testlauf mit data(iris)zeigt jedoch eine Diskrepanz im Modell von etwa 5% unter Verwendung von RMSE und R ^ 2 …

12 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

4

Wie kann die Lernrate mit Gradient Descent als Optimierer (systematisch) eingestellt werden?

Ein Außenseiter des ML / DL-Bereichs; hat den Udacity Deep Learning Kurs begonnen, der auf Tensorflow basiert; Aufgabe 3 erledigen Aufgabe 4; versuchen, die Lernrate mit der folgenden Konfiguration zu optimieren: Losgröße 128 Anzahl der Schritte: genug, um 2 Epochen zu füllen Größen der versteckten Schichten: 1024, 305, 75 Gewichtsinitialisierung: …

12 python machine-learning tensorflow deep-learning

1

Ordinale logistische Regression in Python

Ich möchte eine ordinale logistische Regression in Python ausführen - für eine Antwortvariable mit drei Ebenen und einigen erklärenden Faktoren. Das statsmodelsPaket unterstützt Modelle mit binärer und multinomialer Protokollierung (MNLogit), jedoch keine geordnete Protokollierung. Da die zugrunde liegende Mathematik nicht so unterschiedlich ist, frage ich mich, ob sie mit diesen …

12 categorical-data python logit ordered-logit statsmodels

1

Interpretation des Autokorrelationsplots in MCMC

Ich mache mich mit der Bayes'schen Statistik vertraut, indem ich das Buch Doing Bayesian Data Analysis von John K. Kruschke, auch als "Welpenbuch" bekannt, lese . In Kapitel 9 werden hierarchische Modelle dieses einfachen Beispiels vorgestellt: und die Bernoulli-Beobachtungen bestehen aus 3 Münzen mit jeweils 10 Flips. Einer zeigt 9 …

12 bayesian interpretation python mcmc autocorrelation

5

Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?

Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

2

Warum ist diese Verteilung einheitlich?

Wir untersuchen statistische Tests nach Bayes und stoßen auf ein merkwürdiges (zumindest für mich) Phänomen. Betrachten Sie den folgenden Fall: Wir sind daran interessiert zu messen, welche Population A oder B eine höhere Conversion-Rate aufweist. Für eine Plausibilitätsprüfung setzen wir pA=pBpA=pBp_A = p_B , dh die Konversionswahrscheinlichkeit ist in beiden …

12 hypothesis-testing bayesian binomial python beta-distribution

1

Python-Pakete für die Arbeit mit Gaußschen Mischungsmodellen (GMMs)

Für die Arbeit mit GMMs (Gaussian Mixture Models) in Python stehen anscheinend mehrere Optionen zur Verfügung. Auf den ersten Blick gibt es zumindest: PyMix - http://www.pymix.org/pymix/index.php Tools zur Gemischmodellierung PyEM - http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/em/ ist Teil der Scipy-Toolbox und scheint sich auf das GMM- Update zu konzentrieren: Jetzt bekannt als sklearn.mixture . …

12 normal-distribution python mixture

1

Interpretation der Scikit-Vorhersage_proba-Ausgabe

Ich arbeite mit der Scikit-Learn-Bibliothek in Python. Im folgenden Code prognostiziere ich die Wahrscheinlichkeit, weiß aber nicht, wie ich die Ausgabe lesen soll. Daten testen from sklearn.ensemble import RandomForestClassifier as RF from sklearn import cross_validation X = np.array([[5,5,5,5],[10,10,10,10],[1,1,1,1],[6,6,6,6],[13,13,13,13],[2,2,2,2]]) y = np.array([0,1,1,0,1,2]) Teilen Sie den Datensatz X_train, X_test, y_train, y_test = …

12 python scikit-learn

2

Möglich, GLM in Python / Scikit-Learn mit den Poisson-, Gamma- oder Tweedie-Verteilungen als Familie für die Fehlerverteilung zu bewerten?

Ich versuche, Python und Sklearn zu lernen, aber für meine Arbeit muss ich Regressionen ausführen, die Fehlerverteilungen aus den Familien Poisson, Gamma und insbesondere Tweedie verwenden. Ich sehe nichts in der Dokumentation darüber, aber sie befinden sich in mehreren Teilen der R-Distribution. Ich habe mich gefragt, ob jemand irgendwo Implementierungen …

12 generalized-linear-model python scikit-learn gradient-descent tweedie-distribution

Als «python» getaggte Fragen