Als «python» getaggte Fragen

Python ist eine Programmiersprache, die häufig für maschinelles Lernen verwendet wird. Verwenden Sie dieses Tag für alle * themenbezogenen * Fragen, bei denen (a) Python entweder als kritischer Teil der Frage oder als erwartete Antwort enthält, und (b) nicht * nur * die Verwendung von Python betrifft.

6
Ressourcen zum Erlernen der Implementierung von Ensemble-Methoden
Ich verstehe theoretisch (sozusagen), wie sie funktionieren würden, bin mir aber nicht sicher, wie ich eine Ensemble-Methode anwenden soll (z. B. Abstimmung, gewichtete Mischungen usw.). Was sind gute Ressourcen für die Implementierung von Ensemble-Methoden? Gibt es spezielle Ressourcen für die Implementierung in Python? BEARBEITEN: Um einige anhand der Diskussion zu …

3
Ruby als Statistik-Workbench
Dies ist auch eine Frage, die sehr viel mit Python als Statistik-Workbench und mit Excel als Statistik-Workbench zu tun hat . Ich weiß, es gibt eine große Diskussion über Ruby gegen Python, aber das ist nicht der Punkt in dieser Frage. Ich dachte, dass Ruby, der schneller als Python ist …
13 r  python  software  ruby 


9
Mehr Entscheidungsbäume in Python? [geschlossen]
Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen vor 4 Monaten . Gibt es eine gute Python-Bibliothek zum Trainieren von Boosted Decision Trees?
13 python  cart  boosting 

2
Verwenden von BIC zum Schätzen der Anzahl von k in KMEANS
Ich versuche derzeit, den BIC für meinen Spielzeugdatensatz (ofc iris (:)) zu berechnen. Ich möchte die hier gezeigten Ergebnisse reproduzieren (Abb. 5). Dieses Papier ist auch meine Quelle für die BIC-Formeln. Ich habe 2 Probleme damit: Notation: nichnichn_i = Anzahl der Elemente in Clusterichichi CichCichC_i = Mittelkoordinaten des Clustersichichi xjxjx_j …

2
Wie benutze ich einen Kalman-Filter?
Ich habe eine Flugbahn eines Objekts in einem 2D-Raum (einer Oberfläche). Die Flugbahn wird als eine Folge von (x,y)Koordinaten angegeben. Ich weiß, dass meine Messungen laut sind und ich manchmal offensichtliche Ausreißer habe. Also möchte ich meine Beobachtungen filtern. Soweit ich Kalman Filter verstanden habe, tut es genau das, was …

1
GBM-Paket vs. Caret mit GBM
Ich habe das Modell mit optimiert caret, aber dann das Modell mit dem gbmPaket erneut ausgeführt. Nach meinem Verständnis sollten das verwendete caretPaket gbmund die Ausgabe identisch sein. Nur ein kurzer Testlauf mit data(iris)zeigt jedoch eine Diskrepanz im Modell von etwa 5% unter Verwendung von RMSE und R ^ 2 …

4
Wie kann die Lernrate mit Gradient Descent als Optimierer (systematisch) eingestellt werden?
Ein Außenseiter des ML / DL-Bereichs; hat den Udacity Deep Learning Kurs begonnen, der auf Tensorflow basiert; Aufgabe 3 erledigen Aufgabe 4; versuchen, die Lernrate mit der folgenden Konfiguration zu optimieren: Losgröße 128 Anzahl der Schritte: genug, um 2 Epochen zu füllen Größen der versteckten Schichten: 1024, 305, 75 Gewichtsinitialisierung: …

1
Ordinale logistische Regression in Python
Ich möchte eine ordinale logistische Regression in Python ausführen - für eine Antwortvariable mit drei Ebenen und einigen erklärenden Faktoren. Das statsmodelsPaket unterstützt Modelle mit binärer und multinomialer Protokollierung (MNLogit), jedoch keine geordnete Protokollierung. Da die zugrunde liegende Mathematik nicht so unterschiedlich ist, frage ich mich, ob sie mit diesen …


5
Wie führt man eine Imputation von Werten in einer sehr großen Anzahl von Datenpunkten durch?
Ich habe einen sehr großen Datensatz und es fehlen ungefähr 5% zufällige Werte. Diese Variablen sind miteinander korreliert. Der folgende Beispiel-R-Datensatz ist nur ein Spielzeugbeispiel mit Dummy-korrelierten Daten. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
Warum ist diese Verteilung einheitlich?
Wir untersuchen statistische Tests nach Bayes und stoßen auf ein merkwürdiges (zumindest für mich) Phänomen. Betrachten Sie den folgenden Fall: Wir sind daran interessiert zu messen, welche Population A oder B eine höhere Conversion-Rate aufweist. Für eine Plausibilitätsprüfung setzen wir pA=pBpA=pBp_A = p_B , dh die Konversionswahrscheinlichkeit ist in beiden …

1
Python-Pakete für die Arbeit mit Gaußschen Mischungsmodellen (GMMs)
Für die Arbeit mit GMMs (Gaussian Mixture Models) in Python stehen anscheinend mehrere Optionen zur Verfügung. Auf den ersten Blick gibt es zumindest: PyMix - http://www.pymix.org/pymix/index.php Tools zur Gemischmodellierung PyEM - http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/em/ ist Teil der Scipy-Toolbox und scheint sich auf das GMM- Update zu konzentrieren: Jetzt bekannt als sklearn.mixture . …

1
Interpretation der Scikit-Vorhersage_proba-Ausgabe
Ich arbeite mit der Scikit-Learn-Bibliothek in Python. Im folgenden Code prognostiziere ich die Wahrscheinlichkeit, weiß aber nicht, wie ich die Ausgabe lesen soll. Daten testen from sklearn.ensemble import RandomForestClassifier as RF from sklearn import cross_validation X = np.array([[5,5,5,5],[10,10,10,10],[1,1,1,1],[6,6,6,6],[13,13,13,13],[2,2,2,2]]) y = np.array([0,1,1,0,1,2]) Teilen Sie den Datensatz X_train, X_test, y_train, y_test = …

2
Möglich, GLM in Python / Scikit-Learn mit den Poisson-, Gamma- oder Tweedie-Verteilungen als Familie für die Fehlerverteilung zu bewerten?
Ich versuche, Python und Sklearn zu lernen, aber für meine Arbeit muss ich Regressionen ausführen, die Fehlerverteilungen aus den Familien Poisson, Gamma und insbesondere Tweedie verwenden. Ich sehe nichts in der Dokumentation darüber, aber sie befinden sich in mehreren Teilen der R-Distribution. Ich habe mich gefragt, ob jemand irgendwo Implementierungen …

5
Welche Programmiersprache empfehlen Sie, um ein Problem des maschinellen Lernens zu prototypisieren?
Arbeitet derzeit in Octave, ist aber aufgrund der schlechten Dokumentation nur sehr langsam vorangekommen. Welche Sprache ist leicht zu lernen und zu verwenden und gut dokumentiert, um Probleme des maschinellen Lernens zu lösen? Ich möchte einen Prototyp für einen kleinen Datensatz (Tausende von Beispielen) erstellen, daher ist Geschwindigkeit nicht wichtig. …


4
Wie wird eine PCA für Daten mit sehr hoher Dimensionalität durchgeführt?
Um eine Hauptkomponentenanalyse (PCA) durchzuführen, müssen Sie die Mittelwerte jeder Spalte von den Daten subtrahieren, die Korrelationskoeffizientenmatrix berechnen und dann die Eigenvektoren und Eigenwerte finden. Nun, vielmehr habe ich dies getan, um es in Python zu implementieren, außer dass es nur mit kleinen Matrizen funktioniert, da die Methode zum Ermitteln …
12 pca  python 

1
Was zeigt das Autokorrelationsdiagramm (Pandas)?
Ich bin ein Anfänger und versuche zu verstehen, was ein Autokorrelationsdiagramm zeigt. Ich habe mehrere Erklärungen aus verschiedenen Quellen wie dieser Seite oder der zugehörigen Wikipedia-Seite gelesen , die ich hier nicht zitiere. Ich habe diesen sehr einfachen Code, in dem ich Daten für ein Jahr in meinem Index habe …




1
Wie zeichnet man einen Geröllplot in Python? [geschlossen]
Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen im vergangenen Jahr . Ich verwende eine singuläre Vektorzerlegung auf einer Matrix und erhalte die U-, S- und Vt-Matrizen. …


1
R / mgcv: Warum produzieren te () und ti () Tensorprodukte unterschiedliche Oberflächen?
Das mgcvPaket für Rhat zwei Funktionen zum Anpassen von Tensorproduktwechselwirkungen: te()und ti(). Ich verstehe die grundlegende Arbeitsteilung zwischen den beiden (Anpassen einer nichtlinearen Wechselwirkung vs. Zerlegen dieser Wechselwirkung in Haupteffekte und eine Wechselwirkung). Was ich nicht verstehe, ist warum te(x1, x2)und ti(x1) + ti(x2) + ti(x1, x2)kann (leicht) unterschiedliche Ergebnisse …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

4
Hauptkomponentenanalyse und Regression in Python
Ich versuche herauszufinden, wie ich in Python einige Arbeiten reproduzieren kann, die ich in SAS ausgeführt habe. Mit diesem Datensatz , bei dem Multikollinearität ein Problem darstellt, möchte ich eine Hauptkomponentenanalyse in Python durchführen. Ich habe mir Scikit-Learn- und Statistikmodelle angesehen, bin mir aber nicht sicher, wie ich ihre Ausgabe …


2
Kolmogorov-Smirnov-Test: Die Statistik des p-Werts und des ks-Tests nimmt mit zunehmender Stichprobengröße ab
Warum nehmen p-Werte und ks-Teststatistiken mit zunehmender Stichprobengröße ab? Nehmen Sie diesen Python-Code als Beispiel: import numpy as np from scipy.stats import norm, ks_2samp np.random.seed(0) for n in [10, 100, 1000, 10000, 100000, 1000000]: x = norm(0, 4).rvs(n) y = norm(0, 4.1).rvs(n) print ks_2samp(x, y) Die Ergebnisse sind: Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508) …

1
Sollte ich Random Forest Regressor oder Klassifikator wählen?
Ich passe einen Datensatz mit einer binären Zielklasse durch die zufällige Gesamtstruktur an. In Python kann ich das entweder mit dem randomforestclassifier oder dem randomforestregressor machen. Ich kann die Klassifizierung direkt vom randomforestclassifier erhalten oder ich könnte zuerst randomforestregressor ausführen und eine Reihe von geschätzten Punktzahlen zurückerhalten (kontinuierlicher Wert). Dann …


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.