Als «scikit-learn» getaggte Fragen

Eine Bibliothek für maschinelles Lernen für Python. Verwenden Sie dieses Tag für alle themenbezogenen Fragen, bei denen (a) Scikit-Learn entweder als kritischer Teil der Frage oder als erwartete Antwort verwendet wird und (b) nicht nur die Verwendung von Scikit-Learn betrifft.

2
Adjusted Rand Index vs Adjusted Mutual Information
Ich versuche, die Clusterleistung zu bewerten. Ich habe die Skiscit-Learn-Dokumentation zu Metriken gelesen . Ich verstehe den Unterschied zwischen ARI und AMI nicht. Es scheint mir, dass sie dasselbe auf zwei verschiedene Arten tun. Zitieren aus der Dokumentation: Angesichts der Kenntnis der Zuordnungen der Grundwahrheitsklassen Labels_true und unserer Clustering-Algorithmus-Zuweisungen derselben …

3
Wie wende ich Softmax als Aktivierungsfunktion in mehrschichtigem Perceptron in Scikit-Learn an? [geschlossen]
Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie zum Thema gehört für Kreuz Validated. Geschlossen vor 10 Monaten . Ich muss die Softmax-Aktivierungsfunktion auf das mehrschichtige Perceptron in Scikit anwenden. In der Scikit- …

1
Können zufällige Wälder viel besser abschneiden als der Testfehler von 2,8% bei MNIST?
Ich habe keine Literatur zur Anwendung von Random Forests auf MNIST, CIFAR, STL-10 usw. gefunden, daher dachte ich, ich würde sie selbst mit dem permutationsinvarianten MNIST ausprobieren. In R habe ich versucht: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) Dies lief 2 Stunden und ergab einen Testfehler von 2,8%. Ich habe auch …

1
Clustering Trägheitsformel in Scikit lernen
Ich möchte ein kmeans-Clustering in Python mit Pandas und Scikit Learn codieren. Um das gute k auszuwählen, möchte ich die Gap-Statistik von Tibshirani und al 2001 ( pdf ) codieren . Ich würde gerne wissen, ob ich inertia_ result von scikit verwenden und die Lückenstatistikformel anpassen könnte, ohne die gesamte …

1
Gradientenabstieg oder nicht für einfache lineare Regression
Es gibt eine Reihe von Websites, die den Gradientenabstieg beschreiben, um die Parameter für die einfache lineare Regression zu finden ( hier ist einer davon). Google beschreibt es auch in ihrem neuen (für die Öffentlichkeit) ML-Kurs. Jedoch auf Wikipedia , die folgenden Formeln , die Parameter zur Berechnung α^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2 {\displaystyle …

2
Optimieren Sie SVM, um falsch negative Ergebnisse bei der binären Klassifizierung zu vermeiden
Ich trainiere einen binären SVM-Klassifikator mit Scikit Learn. Aufgrund der Art meines Problems muss ich falsche Negative vermeiden. Da nichts umsonst ist, kann ich eine höhere Rate an falsch positiven Ergebnissen erzielen, um die Anzahl der falsch negativen Ergebnisse zu verringern. Wie können wir das machen (idealerweise mit Scikit lernen)? …

2
Ist der Zufallszustand ein zu stimmender Parameter?
Ein Problem, das in meinen Experimenten häufig auftritt, ist die unterschiedliche Leistung des Modells, wenn der Zufallsstatus für den Algorithmus geändert wird. Die Frage ist also einfach: Soll ich den Zufallszustand als Hyperparameter verwenden? Warum ist das so? Wenn mein Modell andere Modelle mit unterschiedlichen Zufallszuständen übertrifft, sollte ich das …

2
Wie bereite ich Interaktionen von kategorialen Variablen in Scikit-Learn vor?
Was ist der beste Weg, um Interaktionen mit kategorialen Merkmalen vorzubereiten, bevor Sie mit scikit-learn arbeiten? Mit statsmodelskönnte ich bequem im R-Stil sagen smf.ols(formula = 'depvar ~ C(var1)*C(var2)', data=df).fit()(gleich in Stata mit regress depvar i.var1##i.var2). Kann sklearn.preprocessing.PolynomialFeatures(in v0.15, derzeit dev) mit kategorialen Variablen verwendet werden?

1
Wie werden zufällige Wälder und extrem zufällige Bäume unterschiedlich aufgeteilt?
Für zufällige Gesamtstrukturen teilen wir den Knoten nach Gini-Verunreinigung oder Entropie für eine Reihe von Merkmalen auf. Mit dem RandomForestClassifier in sklearn können wir wählen, ob wir das Gini-Kriterium oder das Entropy-Kriterium verwenden möchten. Was ich jedoch über Extra-Trees Classifier gelesen habe, ist ein zufälliger Wert für die Aufteilung (ich …

2
Anomalieerkennung in Zeitreihen
Ich bin ein Anfänger mit maschinellem Lernen (ich habe Ngs Kurs beendet), ich benutze Scikit-Learn in Python. Ich möchte den besten Weg finden, um Anomalien in unserem System zu erkennen. Wir haben laufende Ereignisse, die nach einem Zeitplan auftreten (alle paar Minuten / Stunden), und ich möchte erkennen, wenn etwas …

1
Wie erhalte ich optimale Hyperparameter nach verschachtelter Kreuzvalidierung?
Wenn wir einen großen Datensatz haben, können wir ihn im Allgemeinen in (1) Training, (2) Validierung und (3) Test aufteilen. Wir verwenden die Validierung, um die besten Hyperparameter bei der Kreuzvalidierung zu identifizieren (z. B. C in SVM), und trainieren dann das Modell unter Verwendung der besten Hyperparameter mit dem …


3
Warum ist svm nicht so gut wie ein Entscheidungsbaum für dieselben Daten?
Ich bin neu im maschinellen Lernen und versuche, mit Scikit-Learn (sklearn) ein Klassifizierungsproblem zu lösen. Sowohl DecisionTree als auch SVM können einen Klassifikator für dieses Problem trainieren. Ich verwende sklearn.ensemble.RandomForestClassifierund sklearn.svm.SVCpasse die gleichen Trainingsdaten an (ca. 500.000 Einträge mit 50 Funktionen pro Eintrag). Der RandomForestClassifier bringt in etwa einer Minute …

1
Warum sind alle Lasso-Koeffizienten in Modell 0.0?
Ich verwende from sklearn.linear_model import Lassoin Python 2.7.6 Ich habe ein Skript geschrieben, mit dem ich eine Lasso-Regression für meine Features (X) und meine Ziele (y) durchgeführt habe. Ich habe es schon einmal verwendet und es funktioniert. Ich verwende es für einen neuen Datensatz (völlig andere Art von Daten) und …

1
Lineare Regression zur Minimierung von MAD in sklearn
Das standardmäßige lineare sklearn-Regressionsklasse findet eine angenäherte lineare Beziehung zwischen Variate und Kovariaten, die den mittleren quadratischen Fehler (MSE) minimiert. Insbesondere lassenN.N.NSeien Sie die Anzahl der Beobachtungen und lassen Sie uns den Abschnitt der Einfachheit halber ignorieren. Lassenyjyjy_j sei der Variationswert des jjj-te Beobachtung und x1 , j, … ,xn …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.