Data Science python

3

Exportieren Sie Gewichte (Formel) aus Random Forest Regressor in Scikit-Learn

Ich habe ein Vorhersagemodell mit Scikit Learn in Python (Random Forest Regressor) trainiert und möchte die Gewichte der einzelnen Features irgendwie extrahieren, um ein Excel-Tool für die manuelle Vorhersage zu erstellen. Das einzige, was ich gefunden habe, ist das, model.feature_importances_aber es hilft nicht. Gibt es eine Möglichkeit, dies zu erreichen? …

9 python predictive-modeling regression random-forest scikit-learn

7

Python-Bibliothek, die die Verwirrungsmatrix für die Klassifizierung mehrerer Labels berechnen kann

Ich suche nach einer Python-Bibliothek, die die Verwirrungsmatrix für die Klassifizierung mehrerer Labels berechnen kann . Zu Ihrer Information: scikit-learn unterstützt kein Multi-Label für Verwirrungsmatrix) Was ist der Unterschied zwischen Multiclass und Multilabel Problem?

9 python software-recommendation multilabel-classification

2

Multivariate lineare Regression in Python

Ich suche nach einem Python-Paket, das eine multivariate lineare Regression implementiert. (Terminologische Anmerkung: Multivariate Regression befasst sich mit dem Fall, dass es mehr als eine abhängige Variable gibt, während multiple Regression den Fall behandelt, in dem es eine abhängige Variable, aber mehr als eine unabhängige Variable gibt.)

9 python regression library software-recommendation

1

Wie kann ich eine mehrwertige kategoriale Variable aus dem Pandas-Datenrahmen binär codieren?

Angenommen, wir haben den folgenden Datenrahmen mit mehreren Werten für eine bestimmte Spalte: categories 0 - ["A", "B"] 1 - ["B", "C", "D"] 2 - ["B", "D"] Wie können wir so einen Tisch bekommen? "A" "B" "C" "D" 0 - 1 1 0 0 1 - 0 1 1 1 …

9 python pandas

2

Komplementäre naive Bayes in Python implementieren?

Problem Ich habe versucht, Naive Bayes für einen beschrifteten Datensatz von Kriminalitätsdaten zu verwenden, habe aber wirklich schlechte Ergebnisse erzielt (7% Genauigkeit). Naive Bayes läuft viel schneller als andere Alogorithmen, die ich verwendet habe, deshalb wollte ich herausfinden, warum die Punktzahl so niedrig war. Forschung Nach dem Lesen stellte ich …

9 machine-learning classification python naive-bayes-classifier

2

Clustering von Dokumenten unter Verwendung der aus Latent Dirichlet Allocation abgeleiteten Themen

Ich möchte Latent Dirichlet Allocation für ein Projekt verwenden und verwende Python mit der Gensim-Bibliothek. Nachdem ich die Themen gefunden habe, möchte ich die Dokumente mit einem Algorithmus wie k-means gruppieren (idealerweise möchte ich einen guten für überlappende Cluster verwenden, damit jede Empfehlung begrüßt wird). Ich habe es geschafft, die …

9 python clustering lda

1

Unterschied zwischen interpolate () und fillna () bei Pandas

Da die Interpolations- und die Fillna-Methode die gleiche Arbeit zum Füllen von Na-Werten ausführen. Was ist der grundlegende Unterschied zwischen den beiden. Welche Bedeutung haben diese beiden unterschiedlichen Methoden? Kann mir jemand Laien erklären. Ich habe bereits die offizielle Dokumentation durchgesehen und wollte den Unterschied wissen

9 python bigdata pandas jupyter

3

Verbessern Sie die Filtergeschwindigkeit des Pandas-Datenrahmens

Ich habe einen Datensatz mit 19 Spalten und ungefähr 250.000 Zeilen. Ich habe mit größeren Datensätzen gearbeitet, aber dieses Mal entschied sich Pandas, mit meinen Nerven zu spielen. Ich habe versucht, den ursprünglichen Datensatz anhand einiger einfacher Regeln in drei Unterdatenrahmen aufzuteilen. Die Ausführung des Codes dauert jedoch lange. Etwa …

9 python pandas performance

2

So trainieren Sie das Modell, um Ereignisse 30 Minuten zuvor anhand mehrdimensionaler Zeitreihen vorherzusagen

Experten auf meinem Gebiet sind in der Lage , die Wahrscheinlichkeit eines Ereignisses (binäre Spitze in Gelb) 30 Minuten vor seinem Auftreten vorherzusagen . Die Frequenz beträgt hier 1 Sek., Diese Ansicht repräsentiert Daten im Wert von einigen Stunden. Ich habe schwarz eingekreist, wo "böswilliges" Muster sein sollte . Wechselwirkungen …

9 machine-learning python predictive-modeling time-series scikit-learn

6

Python: Umgang mit Ungleichgewichtsklassen in Python Machine Learning

Ich habe einen Datensatz, für den ich versuche, Zielvariablen vorherzusagen. Col1 Col2 Col3 Col4 Col5 1 2 23 11 1 2 22 12 14 1 22 11 43 38 3 14 22 25 19 3 12 42 11 14 1 22 11 43 38 2 1 2 23 11 4 …

9 machine-learning python data-mining dataset pandas

1

Python Seaborn: Wie werden Fehlerbalken in Barplots berechnet?

Ich verwende die Seaborn-Bibliothek, um Balkendiagramme in Python zu erstellen. Ich frage mich, welche Statistiken zur Berechnung der Fehlerbalken verwendet werden, kann aber in der Barplot-Dokumentation des Seaborn keinen Hinweis darauf finden . Ich weiß, dass die Balkenwerte in meinem Fall basierend auf dem Mittelwert berechnet werden (die Standardoption), und …

9 python visualization

2

Unzulässige Größe der zufälligen Gesamtstruktur beim Speichern auf der Festplatte

Beim Speichern auf der Festplatte mit cPickle: /programming/20662023/save-python-random-forest-model-to-file beträgt meine zufällige Gesamtstruktur 6,57 GB. with open('rforest.cpickle', 'wb') as f: cPickle.dump(rforest, f) Ich möchte die Gesamtstruktur selbst verwenden, um Vorhersagen über eine auf Heroku gehostete Python-API zu treffen - natürlich ist diese Dateigröße nicht akzeptabel. Warum ist die Datei so groß? …

9 python random-forest

1

Knn-Entfernungsdiagramm zur Bestimmung des eps von DBSCAN

Ich möchte das Knn-Entfernungsdiagramm verwenden, um herauszufinden, welchen EPS-Wert ich für den DBSCAN-Algorithmus wählen soll. Basierend auf dieser Seite: Die Idee ist, den Durchschnitt der Entfernungen jedes Punktes zu seinen k nächsten Nachbarn zu berechnen. Der Wert von k wird vom Benutzer angegeben und entspricht MinPts. Als nächstes werden diese …

9 python clustering parameter-estimation dbscan

4

Wie kombiniere ich PCA und MCA mit gemischten Daten?

Angenommen, ich habe gemischte Daten und (Python-) Code, der PCA (Hauptkomponentenanalyse) für kontinuierliche Prädiktoren und MCA (Multiple Correspondence Analysis) für nominale Prädiktoren ausführen kann. Ist es möglich, Ergebnisse von PCA und MCA in einem zu kombinieren?

9 python categorical-data

2

Wie verwende ich Cohens Kappa als Bewertungsmetrik in GridSearchCV in Scikit Learn?

Ich habe ein Klassenungleichgewicht im Verhältnis 1:15, dh eine sehr niedrige Ereignisrate. Um die Abstimmungsparameter von GBM in Scikit Learn auszuwählen, möchte ich Kappa anstelle der F1-Punktzahl verwenden. Mein Verständnis ist, dass Kappa eine bessere Metrik als die F1-Punktzahl für das Klassenungleichgewicht ist. Aber ich konnte Kappa als Evaluierungsmetrik in …

9 machine-learning classification python predictive-modeling scikit-learn

Als «python» getaggte Fragen