Als «python» getaggte Fragen

Python ist eine Programmiersprache, die häufig für maschinelles Lernen verwendet wird. Verwenden Sie dieses Tag für alle * themenbezogenen * Fragen, bei denen (a) Python entweder als kritischer Teil der Frage oder als erwartete Antwort enthält, und (b) nicht * nur * die Verwendung von Python betrifft.

2
Wie verwende ich XGboost.cv mit der Optimierung von Hyperparametern?
Ich möchte die Hyperparameter von XGboost mithilfe der Kreuzvalidierung optimieren. Es ist jedoch nicht klar, wie man das Modell erhält xgb.cv. Zum Beispiel rufe ich objective(params)von an fmin. Dann wird das Modell montiert dtrainund validiert dvalid. Was ist, wenn ich KFold Crossvalidation verwenden möchte, anstatt zu trainieren dtrain? from hyperopt …

2
Wie berechnet Tensorflow `tf.train.Optimizer` Gradienten?
Ich folge dem Tensorflow Mnist-Tutorial ( https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/mnist/mnist_softmax.py ). Das Tutorial verwendet tf.train.Optimizer.minimize(speziell tf.train.GradientDescentOptimizer). Ich sehe keine Argumente, die irgendwo übergeben werden, um Farbverläufe zu definieren. Verwendet der Tensorfluss standardmäßig eine numerische Differenzierung? Gibt es eine Möglichkeit, Farbverläufe so zu übergeben, wie Sie es können scipy.optimize.minimize?

1
Random Forest Probabilistic Prediction gegen Mehrheitswahl
Scikit Learn scheint für die Modellaggregationstechnik eine probabilistische Vorhersage anstelle einer Mehrheitsentscheidung zu verwenden, ohne zu erklären, warum (1.9.2.1. Random Forests). Gibt es eine klare Erklärung dafür, warum? Gibt es außerdem ein gutes Papier oder einen Übersichtsartikel für die verschiedenen Modellaggregationstechniken, die für das Absacken von Random Forest verwendet werden …


2
PyMC für nichtparametrisches Clustering: Der Dirichlet-Prozess zur Schätzung der Parameter der Gaußschen Mischung kann nicht geclustert werden
Problemeinrichtung Eines der ersten Spielzeugprobleme, auf das ich PyMC anwenden wollte, ist das nichtparametrische Clustering: Modellieren Sie anhand einiger Daten diese als Gaußsche Mischung und lernen Sie die Anzahl der Cluster sowie den Mittelwert und die Kovarianz jedes Clusters. Das meiste, was ich über diese Methode weiß, stammt aus Videovorträgen …

1
Wie baue ich einen innovativen Ausreißer bei Beobachtung 48 in mein ARIMA-Modell ein?
Ich arbeite an einem Datensatz. Nachdem ich einige Modellidentifikationstechniken angewendet hatte, kam ich mit einem ARIMA (0,2,1) -Modell heraus. Ich habe die detectIOFunktion im Paket TSAin R verwendet, um bei der 48. Beobachtung meines ursprünglichen Datensatzes einen innovativen Ausreißer (IO) zu erkennen . Wie kann ich diesen Ausreißer in mein …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
Wie berechnet man gegenseitige Informationen?
Ich bin etwas verwirrt. Kann mir jemand erklären, wie man die gegenseitige Information zwischen zwei Begriffen basierend auf einer Term-Dokument-Matrix mit dem Auftreten eines binären Terms als Gewichtung berechnet? Document1Document2Document3′Why′111′How′101′When′111′Where′100′Why′′How′′When′′Where′Document11111Document21010Document31110 \begin{matrix} & 'Why' & 'How' & 'When' & 'Where' \\ Document1 & 1 & 1 & 1 & 1 \\ …

2
Anpassungsmodell für zwei Normalverteilungen in PyMC
Da ich ein Softwareentwickler bin, der versucht, mehr Statistiken zu lernen, müssen Sie mir vergeben, bevor ich überhaupt anfange. Dies ist ein ernstes Neuland ... Ich habe PyMC gelernt und einige wirklich (wirklich) einfache Beispiele durchgearbeitet . Ein Problem, bei dem ich nicht zur Arbeit kommen kann (und für das …
10 modeling  python  pymc 

2
Wie generiere ich Zahlen gemäß einer Soliton-Verteilung?
Die Soliton-Verteilung ist eine diskrete Wahrscheinlichkeitsverteilung über eine Menge mit der Wahrscheinlichkeitsmassenfunktion{1,…,N}{1,…,N}\{1,\dots, N\} p(1)=1N,p(k)=1k(k−1)for k∈{2,…,N}p(1)=1N,p(k)=1k(k−1)for k∈{2,…,N} p(1)=\frac{1}{N},\qquad p(k)=\frac{1}{k(k-1)}\quad\text{for }k\in\{2,\dots, N\} Ich möchte es als Teil einer Implementierung eines LT-Codes verwenden , idealerweise in Python, wo ein einheitlicher Zufallszahlengenerator verfügbar ist.

4
Anpassen der logarithmischen Normalverteilung in R vs. SciPy
Ich habe ein logarithmisches Normalmodell mit R mit einem Datensatz versehen. Die resultierenden Parameter waren: meanlog = 4.2991610 sdlog = 0.5511349 Ich möchte dieses Modell auf Scipy übertragen, das ich noch nie benutzt habe. Mit Scipy konnte ich eine Form und einen Maßstab von 1 und 3.1626716539637488e + 90 erhalten …
10 r  python  numpy  scipy 

3
Was ist die effizienteste Methode zum Trainieren von Daten mit dem geringsten Speicher?
Dies sind meine Trainingsdaten: 200.000 Beispiele x 10.000 Funktionen. Meine Trainingsdatenmatrix ist also - 200.000 x 10.000. Ich habe es geschafft, dies in einer flachen Datei ohne Speicherprobleme zu speichern, indem ich jeden Datensatz einzeln (ein Beispiel nach dem anderen) gespeichert habe, während ich die Funktionen für jedes Beispiel generierte. …

1
t-SNE mit gemischten kontinuierlichen und binären Variablen
Ich untersuche derzeit die Visualisierung hochdimensionaler Daten mit t-SNE. Ich habe einige Daten mit gemischten binären und kontinuierlichen Variablen und die Daten scheinen die binären Daten viel zu leicht zu gruppieren. Dies wird natürlich für skalierte Daten (zwischen 0 und 1) erwartet: Der euklidische Abstand ist zwischen binären Variablen immer …

4
So beweisen Sie statistisch, ob eine Spalte kategoriale Daten enthält oder Python nicht verwendet
Ich habe einen Datenrahmen in Python, in dem ich alle kategorialen Variablen finden muss. Das Überprüfen des Spaltentyps funktioniert nicht immer, da der intTyp auch kategorisch sein kann. Daher suche ich Hilfe bei der Suche nach der richtigen Hypothesentestmethode, um festzustellen, ob eine Spalte kategorisch ist oder nicht. Ich habe …


3
Identifizieren gefilterter Features nach Feature-Auswahl mit scikit learn
Hier ist mein Code für die Feature-Auswahlmethode in Python: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) Aber nachdem ich neues X (abhängige Variable - X_new) erhalten habe, woher weiß …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.