Als «scikit-learn» getaggte Fragen

Scikit-learn ist ein Python-Modul, das ein einfaches und effizientes Tool für maschinelles Lernen, Data Mining und Datenanalyse umfasst. Es basiert auf NumPy, SciPy und Matplotlib. Es wird unter der 3-Klausel-BSD-Lizenz vertrieben.

2
Was ist die effizienteste Methode zur Optimierung von Hyperparametern beim Scikit-Lernen?
Eine Übersicht über den Hyperparameter-Optimierungsprozess in scikit-learn finden Sie hier . Eine umfassende Rastersuche findet den optimalen Satz von Hyperparametern für ein Modell. Der Nachteil ist, dass die umfassende Rastersuche langsam ist. Die zufällige Suche ist schneller als die Rastersuche, weist jedoch eine unnötig hohe Varianz auf. Es gibt auch …

2
Entspricht max_depth in scikit dem Beschneiden von Entscheidungsbäumen?
Ich habe den Klassifikator analysiert, der mithilfe eines Entscheidungsbaums erstellt wurde. Im Entscheidungsbaum von scikit gibt es einen Optimierungsparameter namens max_depth . Entspricht dies dem Beschneiden eines Entscheidungsbaums? Wenn nicht, wie könnte ich einen Entscheidungsbaum mit Scikit beschneiden? dt_ap = tree.DecisionTreeClassifier(random_state=1, max_depth=13) boosted_dt = AdaBoostClassifier(dt_ap, random_state=1) boosted_dt.fit(X_train, Y_train)

3
Beziehung zwischen Faltung in Mathematik und CNN
Ich habe die Erklärung der Faltung gelesen und verstehe sie bis zu einem gewissen Grad. Kann mir jemand helfen zu verstehen, wie diese Operation mit der Faltung in Faltungs-Neuronalen Netzen zusammenhängt? Ist eine filterähnliche Funktion, gdie Gewicht anwendet?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

3

1
Unausgeglichene Daten, die zu einer Fehlklassifizierung des Datensatzes mit mehreren Klassen führen
Ich arbeite an einer Textklassifizierung mit 39 Kategorien / Klassen und 8,5 Millionen Datensätzen. (In Zukunft werden Daten und Kategorien zunehmen). Struktur oder Format meiner Daten ist wie folgt. ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 …

4
Interpretieren des Entscheidungsbaums im Kontext von Feature-Wichtigkeiten
Ich versuche zu verstehen, wie man den Entscheidungsprozess eines mit sklearn erstellten Entscheidungsbaum-Klassifizierungsmodells vollständig versteht. Die beiden Hauptaspekte, die ich betrachte, sind eine grafische Darstellung des Baums und die Liste der Funktionsbedeutungen. Was ich nicht verstehe, ist, wie die Merkmalsbedeutung im Kontext des Baums bestimmt wird. Hier ist zum Beispiel …

3
Exportieren Sie Gewichte (Formel) aus Random Forest Regressor in Scikit-Learn
Ich habe ein Vorhersagemodell mit Scikit Learn in Python (Random Forest Regressor) trainiert und möchte die Gewichte der einzelnen Features irgendwie extrahieren, um ein Excel-Tool für die manuelle Vorhersage zu erstellen. Das einzige, was ich gefunden habe, ist das, model.feature_importances_aber es hilft nicht. Gibt es eine Möglichkeit, dies zu erreichen? …

1
Funktionsauswahl für Support Vector Machines
Meine Frage ist dreifach Im Kontext von "Kernelized" unterstützen Vektormaschinen Ist die Auswahl von Variablen / Merkmalen wünschenswert - insbesondere, da wir den Parameter C regulieren, um eine Überanpassung zu verhindern, und das Hauptmotiv für die Einführung von Kerneln in eine SVM darin besteht, die Dimensionalität des Problems zu erhöhen. …


1
Kann das Vertrauen in Trainingsetiketten verwendet werden, um die Vorhersagegenauigkeit zu verbessern?
Ich habe Trainingsdaten, die mit Binärwerten gekennzeichnet sind. Ich habe auch das Vertrauen jedes dieser Etiketten gesammelt, dh 0,8 Vertrauen würde bedeuten, dass 80% der menschlichen Etikettierer diesem Etikett zustimmen. Ist es möglich, diese Vertrauensdaten zu verwenden, um die Genauigkeit meines Klassifikators zu verbessern? Würde folgendes funktionieren? 1a) Wenn das …

2
So trainieren Sie das Modell, um Ereignisse 30 Minuten zuvor anhand mehrdimensionaler Zeitreihen vorherzusagen
Experten auf meinem Gebiet sind in der Lage , die Wahrscheinlichkeit eines Ereignisses (binäre Spitze in Gelb) 30 Minuten vor seinem Auftreten vorherzusagen . Die Frequenz beträgt hier 1 Sek., Diese Ansicht repräsentiert Daten im Wert von einigen Stunden. Ich habe schwarz eingekreist, wo "böswilliges" Muster sein sollte . Wechselwirkungen …

4
Clustering für gemischte numerische und nominale diskrete Daten
Meine Daten enthalten binäre (numerische) und nominelle / kategoriale Umfrageantworten. Alle Antworten sind diskret und auf individueller Ebene. Die Daten haben eine Form (n = 7219, p = 105). Paar Dinge: Ich versuche, eine Clustering-Technik mit einem Ähnlichkeitsmaß zu identifizieren, das für kategoriale und numerische Binärdaten funktioniert. Es gibt Techniken …

2
Wie verwende ich Cohens Kappa als Bewertungsmetrik in GridSearchCV in Scikit Learn?
Ich habe ein Klassenungleichgewicht im Verhältnis 1:15, dh eine sehr niedrige Ereignisrate. Um die Abstimmungsparameter von GBM in Scikit Learn auszuwählen, möchte ich Kappa anstelle der F1-Punktzahl verwenden. Mein Verständnis ist, dass Kappa eine bessere Metrik als die F1-Punktzahl für das Klassenungleichgewicht ist. Aber ich konnte Kappa als Evaluierungsmetrik in …

2
Warum sagt die Gradient Boosting-Regression negative Werte voraus, wenn mein Trainingssatz keine negativen y-Werte enthält?
Als ich die Anzahl der Bäume erhöhe in scikit lernen ist GradientBoostingRegressor, erhalte ich negative Prognosen, auch wenn es in meiner Ausbildung oder Testsatz keine negativen Werte sind. Ich habe ungefähr 10 Funktionen, von denen die meisten binär sind. Einige der Parameter, die ich eingestellt habe, waren: die Anzahl der …

3
Verschachtelte Kreuzvalidierung und Auswahl des besten Regressionsmodells - ist dies der richtige SKLearn-Prozess?
Wenn ich das richtig verstehe, kann mir Nested-CV dabei helfen, zu bewerten, welcher Modell- und Hyperparameter-Optimierungsprozess am besten ist. Die innere Schleife ( GridSearchCV) findet die besten Hyperparameter, und die äußere Schleife ( cross_val_score) wertet den Algorithmus zur Optimierung der Hyperparameter aus. Ich wähle dann aus der äußeren Schleife aus, …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.