Als «python» getaggte Fragen

Python ist eine Programmiersprache, die häufig für maschinelles Lernen verwendet wird. Verwenden Sie dieses Tag für alle * themenbezogenen * Fragen, bei denen (a) Python entweder als kritischer Teil der Frage oder als erwartete Antwort enthält, und (b) nicht * nur * die Verwendung von Python betrifft.

2
Wie bereite ich Interaktionen von kategorialen Variablen in Scikit-Learn vor?
Was ist der beste Weg, um Interaktionen mit kategorialen Merkmalen vorzubereiten, bevor Sie mit scikit-learn arbeiten? Mit statsmodelskönnte ich bequem im R-Stil sagen smf.ols(formula = 'depvar ~ C(var1)*C(var2)', data=df).fit()(gleich in Stata mit regress depvar i.var1##i.var2). Kann sklearn.preprocessing.PolynomialFeatures(in v0.15, derzeit dev) mit kategorialen Variablen verwendet werden?

2
Die Identitätsverknüpfungsfunktion berücksichtigt nicht die Domäne der Gamma-Familie?
Ich verwende ein Gamma Generalized Linear Model (GLM) mit einem Identitätslink. Die unabhängige Variable ist die Vergütung einer bestimmten Gruppe. Die Zusammenfassung der Python-Statistikmodelle gibt mir eine Warnung zu der Identitätsverknüpfungsfunktion ( "DomainWarning: Die Identitätsverknüpfungsfunktion berücksichtigt nicht die Domäne der Gamma-Familie." ), Die ich nicht verstehe und bei der ich …

1
Wie werden zufällige Wälder und extrem zufällige Bäume unterschiedlich aufgeteilt?
Für zufällige Gesamtstrukturen teilen wir den Knoten nach Gini-Verunreinigung oder Entropie für eine Reihe von Merkmalen auf. Mit dem RandomForestClassifier in sklearn können wir wählen, ob wir das Gini-Kriterium oder das Entropy-Kriterium verwenden möchten. Was ich jedoch über Extra-Trees Classifier gelesen habe, ist ein zufälliger Wert für die Aufteilung (ich …

3
Friedman-Test und Post-Hoc-Test für Python
In meinem Datensatz habe ich fünf (ordinale) Gruppen mit einem x-Maß. Da die Homoskedastizität verletzt wird, habe ich den Friedman-Chi-Quadrat-Test durchgeführt, um festzustellen, ob es statistische Unterschiede zwischen den Gruppen gibt: fried = stats.friedmanchisquare(*[grp for idx, grp in df.iteritems()])) Dies ergab einen statistischen Unterschied, aber jetzt möchte ich herausfinden, zwischen …

1
Unterschied zwischen Naive Bayes und Recurrent Neural Network (LSTM)
Ich möchte eine Stimmungsanalyse für Text durchführen, habe mehrere Artikel durchgesehen, einige verwenden "Naive Bayes" und andere sind "Recurrent Neural Network (LSTM)" , andererseits habe ich eine Python-Bibliothek für die Stimmungsanalyse gesehen, die ist nltk. Es verwendet "Naive Bayes". Kann jemand erklären, was der Unterschied zwischen der Verwendung der beiden …

2
Warum hat dieser Datensatz keine Kovarianz?
Mein Verständnis der Funktionsweise der Kovarianz ist, dass korrelierte Daten eine etwas hohe Kovarianz aufweisen sollten. Ich bin auf eine Situation gestoßen, in der meine Daten korreliert aussehen (wie im Streudiagramm gezeigt), die Kovarianz jedoch nahe Null liegt. Wie kann die Kovarianz der Daten Null sein, wenn sie korreliert sind? …


1
Reproduzieren Sie die Figur der "Computer Age Statistical Inference" von Efron und Hastie
Die zusammengefasste Version meiner Frage (26. Dezember 2018) Ich versuche, Abbildung 2.2 aus Computer Age Statistical Inference von Efron und Hastie zu reproduzieren , aber aus irgendeinem Grund, den ich nicht verstehen kann, stimmen die Zahlen nicht mit denen im Buch überein. Angenommen, wir versuchen, zwischen zwei möglichen Wahrscheinlichkeitsdichtefunktionen für …

2
Inkonsistente Normalitätstests: Kolmogorov-Smirnov gegen Shapiro-Wilk
Ich untersuche derzeit einige Daten, die von einer von mir geschriebenen MC-Simulation erstellt wurden. Ich erwarte, dass die Werte normal verteilt sind. Natürlich habe ich ein Histogramm gezeichnet und es sieht vernünftig aus (denke ich?): [Oben links: Histogramm mit dist.pdf(), oben rechts: kumulatives Histogramm mit dist.cdf(), unten: QQ-Plot, datavs dist] …

2
Anomalieerkennung in Zeitreihen
Ich bin ein Anfänger mit maschinellem Lernen (ich habe Ngs Kurs beendet), ich benutze Scikit-Learn in Python. Ich möchte den besten Weg finden, um Anomalien in unserem System zu erkennen. Wir haben laufende Ereignisse, die nach einem Zeitplan auftreten (alle paar Minuten / Stunden), und ich möchte erkennen, wenn etwas …


1
Variationsinferenzmaschinen
Nach einigen Recherchen zu diesem Thema habe ich ein überraschendes Defizit an Inferenzpaketen und Bibliotheken festgestellt, die auf Nachrichtenübermittlungs- oder Optimierungsmethoden für Python und R beruhen. Nach meinem besten Wissen sind diese Methoden äußerst nützlich. Zum Beispiel sollte für ein Bayes-Netzwerk (gerichtet, azyklisch) die Glaubensausbreitung allein in der Lage sein, …

2
Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?
Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 


1
Anpassen eines Gaußschen Mischungsmodells unter Verwendung eines stochastischen Gradientenabfalls
Ich arbeite an einem Online-Lernmodell für Kategorien, das einen stochastischen Gradientenabstieg verwendet, um ein Gaußsches Mischungsmodell anzupassen. Das Modell basiert auf dem Online-Lernmodell von Toscano & McMurray (2010). Während der Gradientenabstieg ziemlich gut zu funktionieren scheint, um die Mittelwerte und Häufigkeiten / Mischungswahrscheinlichkeiten der Kategorien abzuschätzen, habe ich Probleme mit …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.