Als «scikit-learn» getaggte Fragen

scikit-learn ist eine Bibliothek für maschinelles Lernen für Python, die einfache und effiziente Tools für die Datenanalyse und das Data Mining bietet, wobei der Schwerpunkt auf maschinellem Lernen liegt. Es ist für jedermann zugänglich und in verschiedenen Kontexten wiederverwendbar. Es basiert auf NumPy und SciPy. Das Projekt ist Open Source und kommerziell nutzbar (BSD-Lizenz).

4
Was sind die Vor- und Nachteile zwischen get_dummies (Pandas) und OneHotEncoder (Scikit-learn)?
Ich lerne verschiedene Methoden, um kategoriale Variablen für maschinell lernende Klassifikatoren in numerische umzuwandeln. Ich bin auf die pd.get_dummiesMethode gestoßen sklearn.preprocessing.OneHotEncoder()und wollte sehen, wie sie sich in Bezug auf Leistung und Nutzung unterscheiden. Ich habe seitdem ein Tutorial zur Verwendung OneHotEncoder()unter https://xgdgsc.wordpress.com/2015/03/20/note-on-using-onehotencoder-in-scikit-learn-to-work-on-categorical-features/ gefunden Die sklearnDokumentation war für diese Funktion nicht …



7
sklearn Plot Verwirrungsmatrix mit Beschriftungen
Ich möchte eine Verwirrungsmatrix zeichnen, um die Leistung des Klassifikators zu visualisieren, aber sie zeigt nur die Nummern der Etiketten, nicht die Etiketten selbst: from sklearn.metrics import confusion_matrix import pylab as pl y_test=['business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', …

13
fit_transform () akzeptiert 2 Positionsargumente, aber 3 wurden mit LabelBinarizer angegeben
Ich bin völlig neu im maschinellen Lernen und habe mit unbeaufsichtigten Lerntechniken gearbeitet. Das Bild zeigt meine Beispieldaten (nach allen Reinigungen). Screenshot: Beispieldaten Ich habe diese zwei Pipline gebaut, um die Daten zu bereinigen: num_attribs = list(housing_num) cat_attribs = ["ocean_proximity"] print(type(num_attribs)) num_pipeline = Pipeline([ ('selector', DataFrameSelector(num_attribs)), ('imputer', Imputer(strategy="median")), ('attribs_adder', CombinedAttributesAdder()), …


6
UndefinedMetricWarning: Der F-Score ist schlecht definiert und wird in Labels ohne vorhergesagte Stichproben auf 0,0 gesetzt
Ich bekomme diesen seltsamen Fehler: classification.py:1113: UndefinedMetricWarning: F-score is ill-defined and being set to 0.0 in labels with no predicted samples. 'precision', 'predicted', average, warn_for)` aber dann druckt es auch die f-Punktzahl, wenn ich das erste Mal laufe: metrics.f1_score(y_test, y_pred, average='weighted') Beim zweiten Start wird die Punktzahl fehlerfrei angezeigt. Warum …



5
Standardschwelle für scikit-learn .predict ()
Ich arbeite an einem Klassifizierungsproblem mit unausgeglichenen Klassen (5% 1). Ich möchte die Klasse vorhersagen, nicht die Wahrscheinlichkeit. classifier.predict()Verwendet Scikit bei einem binären Klassifizierungsproblem 0.5standardmäßig? Wenn nicht, wie lautet die Standardmethode? Wenn ja, wie ändere ich es? In Scikit haben einige Klassifikatoren die class_weight='auto'Option, aber nicht alle. Mit class_weight='auto'würde .predict()der …

5
Übergabe kategorialer Daten an den Sklearn-Entscheidungsbaum
Es gibt mehrere Beiträge zum Codieren kategorialer Daten in Sklearn-Entscheidungsbäume, aber aus der Sklearn-Dokumentation haben wir diese erhalten Einige Vorteile von Entscheidungsbäumen sind: (...) Kann sowohl numerische als auch kategoriale Daten verarbeiten. Andere Techniken sind normalerweise auf die Analyse von Datensätzen spezialisiert, die nur einen Variablentyp aufweisen. Weitere Informationen finden …

5
Wie verwende ich sklearn fit_transform mit Pandas und gebe Datenrahmen anstelle von numpy array zurück?
Ich möchte die Skalierung (mit StandardScaler () von sklearn.preprocessing) auf einen Pandas-Datenrahmen anwenden. Der folgende Code gibt ein Numpy-Array zurück, sodass ich alle Spaltennamen und Unabhängigkeiten verliere. Das will ich nicht. features = df[["col1", "col2", "col3", "col4"]] autoscaler = StandardScaler() features = autoscaler.fit_transform(features) Eine "Lösung", die ich online gefunden habe, …

12
sklearn.LabelEncoder mit nie zuvor gesehenen Werten
Wenn a sklearn.LabelEncoderin ein Trainingsset eingebaut wurde, kann es brechen, wenn es bei Verwendung in einem Testset auf neue Werte stößt. Die einzige Lösung, die ich dafür finden könnte, besteht darin, alles Neue im Testsatz (dh keine zu einer vorhandenen Klasse gehörend) zuzuordnen "<unknown>"und anschließend explizit eine entsprechende Klasse hinzuzufügen …

3
LogisticRegression: Unbekannter Etikettentyp: 'Continuous' mit sklearn in Python
Ich habe den folgenden Code, um einige der beliebtesten ML-Algorithmen der sklearn Python-Bibliothek zu testen: import numpy as np from sklearn import metrics, svm from sklearn.linear_model import LinearRegression from sklearn.linear_model import LogisticRegression from sklearn.tree import DecisionTreeClassifier from sklearn.neighbors import KNeighborsClassifier from sklearn.discriminant_analysis import LinearDiscriminantAnalysis from sklearn.naive_bayes import GaussianNB from sklearn.svm …

6
Scikit Lernen Sie die SVC-Entscheidungsfunktion kennen und sagen Sie sie voraus
Ich versuche, die Beziehung zwischen Entscheidungsfunktion und Vorhersage zu verstehen, die Instanzmethoden von SVC sind ( http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html ). Bisher habe ich festgestellt, dass die Entscheidungsfunktion paarweise Bewertungen zwischen Klassen zurückgibt. Ich hatte den Eindruck, dass Predict die Klasse auswählt, die ihre paarweise Punktzahl maximiert, aber ich habe dies getestet und …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.