Data Science scikit-learn

8

Unterschied zwischen fit und fit_transform in scikit_learn-Modellen?

Ich bin ein Neuling in der Datenwissenschaft und verstehe den Unterschied zwischen fitund fit_transformMethoden beim Scikit-Lernen nicht. Kann jemand einfach erklären, warum wir möglicherweise Daten transformieren müssen? Was bedeutet es, das Modell an die Trainingsdaten anzupassen und in Testdaten umzuwandeln? Bedeutet dies beispielsweise, dass Sie kategoriale Variablen in Zahlen umwandeln …

110 python scikit-learn

3

Wann wird One Hot Encoding vs LabelEncoder vs DictVectorizor verwendet?

Ich erstelle seit einiger Zeit Modelle mit kategorialen Daten. In dieser Situation verwende ich standardmäßig die LabelEncoder-Funktion von scikit-learn, um diese Daten vor dem Erstellen eines Modells zu transformieren. Ich verstehe den Unterschied zwischen OHE, LabelEncoderund DictVectorizorin Hinblick darauf, was sie auf die Daten zu tun, aber was mir nicht …

96 scikit-learn categorical-data feature-engineering

11

SVM, das scikit learn verwendet, wird endlos ausgeführt und schließt die Ausführung nie ab

Ich versuche, SVR mit Scikit Learn (Python) auf einem Trainingsdatensatz mit 595605 Zeilen und 5 Spalten (Features) und einem Testdatensatz mit 397070 Zeilen auszuführen. Die Daten wurden vorverarbeitet und reguliert. Ich kann die Testbeispiele erfolgreich ausführen. Wenn ich jedoch meinen Datensatz verwende und ihn länger als eine Stunde laufen lasse, …

76 python svm scikit-learn

6

Zeichenfolgen als Merkmale im Entscheidungsbaum / zufälligen Wald

Ich mache einige Probleme bei der Anwendung von Decision Tree / Random Forest. Ich versuche, ein Problem zu lösen, bei dem sowohl Zahlen als auch Zeichenfolgen (z. B. der Name des Landes) als Merkmale verwendet werden. Jetzt nimmt die Bibliothek, scikit-learn, nur Zahlen als Parameter, aber ich möchte die Zeichenfolgen …

64 machine-learning python scikit-learn random-forest decision-trees

9

Aufteilen von Zug- / Test- / Validierungssätzen in Sklearn

Wie könnte ich mit Sklearn eine Datenmatrix und den entsprechenden Beschriftungsvektor zufällig in einen X_train, X_test, X_val, y_train, y_test, y_val aufteilen? Soweit ich weiß, sklearn.cross_validation.train_test_splitist nur in der Lage, in zwei, nicht in drei zu spalten ...

59 machine-learning scikit-learn

5

Hat scikit-learn einen Vorwärtsauswahl- / schrittweisen Regressionsalgorithmus?

Ich arbeite an dem Problem mit zu vielen Funktionen und das Training meiner Modelle dauert viel zu lange. Ich habe einen Vorwärtsauswahlalgorithmus implementiert, um Features auszuwählen. Allerdings habe ich mich gefragt, ob Scikit-Learn einen Vorwärtsauswahl- / schrittweisen Regressionsalgorithmus hat.

37 feature-selection scikit-learn

1

Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?

Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :( Ich habe nicht versucht, 500 Bäume zu züchten, da dies Stunden dauern …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

3

Understanding predict_proba von MultiOutputClassifier

Ich folge diesem Beispiel auf der Website von scikit-learn, um eine Multi-Output-Klassifizierung mit einem Random Forest-Modell durchzuführen. from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, n_informative=2, n_classes=2, random_state=1) y2 = shuffle(y1, random_state=1) Y …

28 scikit-learn random-forest multilabel-classification

3

So erzwingen Sie, dass Gewichte in der linearen Regression nicht negativ sind

Ich verwende eine standardmäßige lineare Regression mit Scikit-Learn in Python. Ich möchte jedoch erzwingen, dass die Gewichte für jedes Merkmal alle positiv sind (nicht negativ). Kann ich das auf irgendeine Weise erreichen? Ich habe in der Dokumentation gesucht, aber keinen Weg gefunden, dies zu erreichen. Ich verstehe, dass ich möglicherweise …

27 python scikit-learn linear-regression

4

Scikit-Learn: SGDClassifier dazu bringen, eine logistische Regression vorherzusagen

Eine Möglichkeit, eine logistische Regression zu trainieren, besteht in der Verwendung einer stochastischen Gradientenabnahme, zu der scikit-learn eine Schnittstelle bietet. Was ich möchte , ist zu tun , nehmen Sie einen Scikit-Learn des SGDClassifier und haben sie das gleiche wie eine logistische Regression punkten hier . Ich muss jedoch einige …

24 python logistic-regression scikit-learn gradient-descent

5

Berechnung der KL-Divergenz in Python

Ich bin ziemlich neu in diesem Bereich und kann nicht sagen, dass ich die theoretischen Konzepte dahinter vollständig verstanden habe. Ich versuche, die KL-Divergenz zwischen mehreren Punktelisten in Python zu berechnen. Ich benutze http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html , um dies zu versuchen. Das Problem, auf das ich stoße, ist, dass der zurückgegebene Wert …

22 python clustering scikit-learn

2

train_test_split () -Fehler: Eingabevariablen mit inkonsistenter Anzahl von Stichproben gefunden

Ziemlich neu in Python, aber ich baue mein erstes RF-Modell basierend auf einigen Klassifizierungsdaten auf. Ich habe alle Bezeichnungen in Int64-numerische Daten konvertiert und als Numpy-Array in X und Y geladen. Beim Versuch, die Modelle zu trainieren, tritt jedoch ein Fehler auf. So sehen meine Arrays aus: >>> X = …

21 python scikit-learn sampling

3

StandardScaler vor und nach dem Aufteilen von Daten

Als ich über das Verwenden las StandardScaler, sagten die meisten Empfehlungen, dass Sie verwenden sollten, StandardScaler bevor Sie die Daten in Zug / Test aufteilen, aber als ich einige der online veröffentlichten Codes überprüfte (mit sklearn), gab es zwei Hauptverwendungen. 1- Mit StandardScalerauf alle Daten. Z.B from sklearn.preprocessing import StandardScaler …

20 machine-learning scikit-learn preprocessing

3

Unterschied zwischen OrdinalEncoder und LabelEncoder

Nachdem ich ein Buch über ML durchgesehen hatte, ging ich die offizielle Dokumentation von scikit-learn learn durch und stieß auf Folgendes: In der Dokumentation wird darüber berichtet, sklearn.preprocessing.OrdinalEncoder()während es in dem Buch, über das es gegeben wurde sklearn.preprocessing.LabelEncoder(), für mich gleich aussah, als ich ihre Funktionalität überprüfte. Kann mir bitte …

20 machine-learning python scikit-learn preprocessing encoding

2

Wie bekomme ich mit sklearn einen p-Wert und ein sicheres Intervall in LogisticRegression?

Ich baue mit sklearn (LogisticRegression) eine multinomiale logistische Regression auf. Wie kann ich dann einen p-Wert und ein sicheres Intervall für mein Modell erhalten? Es scheint nur, dass sklearn nur den Koeffizienten und den Achsenabschnitt liefert. Vielen Dank.

19 scikit-learn logistic-regression

Als «scikit-learn» getaggte Fragen