Als «scikit-learn» getaggte Fragen

Eine Bibliothek für maschinelles Lernen für Python. Verwenden Sie dieses Tag für alle themenbezogenen Fragen, bei denen (a) Scikit-Learn entweder als kritischer Teil der Frage oder als erwartete Antwort verwendet wird und (b) nicht nur die Verwendung von Scikit-Learn betrifft.

3
XGBoost vs Python Sklearn-Bäume wurden mit einem Anstieg versehen
Ich versuche zu verstehen, wie XGBoost funktioniert. Ich verstehe bereits, wie gradientenverstärkte Bäume auf Python Sklearn funktionieren. Was mir nicht klar ist, ist, ob XGBoost auf die gleiche Weise funktioniert, aber schneller, oder ob es grundlegende Unterschiede zwischen ihm und der Python-Implementierung gibt. Wenn ich diese Zeitung lese http://learningsys.org/papers/LearningSys_2015_paper_32.pdf Für …

2
Multilabel-Klassifizierungsmetriken für Scikit
Ich versuche, einen Multi-Label-Klassifikator zu erstellen, um vorhandenen Dokumenten mithilfe von Scikit Themen zuzuweisen Ich bearbeite meine Dokumente, indem ich sie über TfidfVectorizerdie Etiketten durch die MultiLabelBinarizerund OneVsRestClassifiermit einerSGDClassifier als Schätzer erstellte. Beim Testen meines Klassifikators erhalte ich jedoch nur Punkte bis zu 0,29 , was nach meiner Lektüre für …

2
Zufälliger Wald ist überpassend?
Ich experimentiere mit Scikit-Learn in zufälligen Wäldern und erhalte großartige Ergebnisse mit meinem Trainingssatz, aber relativ schlechte Ergebnisse mit meinem Testsatz ... Hier ist das Problem (inspiriert vom Poker), das ich zu lösen versuche: Mit den Hole Cards von Spieler A, den Hole Cards von Spieler B und einem Flop …

3
Wie man die Standardfehler der Koeffizienten einer logistischen Regression berechnet
Ich benutze Pythons Scikit-Learn, um eine logistische Regression zu trainieren und zu testen. scikit-learn gibt die Regressionskoeffizienten der unabhängigen Variablen zurück, liefert jedoch nicht die Standardfehler der Koeffizienten. Ich benötige diese Standardfehler, um eine Wald-Statistik für jeden Koeffizienten zu berechnen und diese Koeffizienten miteinander zu vergleichen. Ich habe eine Beschreibung …

3
Warum nicht die „normalen Gleichungen“ verwenden, um einfache Koeffizienten kleinster Quadrate zu finden?
Ich habe diese Liste hier gesehen und konnte nicht glauben, dass es so viele Möglichkeiten gibt, die kleinsten Quadrate zu lösen. Die "normalen Gleichungen" in Wikipedia schienen ein recht einfacher Weg zu sein: α^β^= y¯- β^x¯,= ∑nich= 1( xich- x¯) ( yich- y¯)∑ni = 1( xich- x¯)2α^=y¯-β^x¯,β^=∑ich=1n(xich-x¯)(yich-y¯)∑ich=1n(xich-x¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha …


3
Wie erhält man Hyperparameter in einer verschachtelten Kreuzvalidierung?
Ich habe die folgenden Beiträge zur geschachtelten Kreuzvalidierung gelesen und bin mir immer noch nicht 100% sicher, was ich mit der Modellauswahl mit geschachtelter Kreuzvalidierung tun soll: Verschachtelte Kreuzvalidierung für die Modellauswahl Modellauswahl und Kreuzvalidierung: Der richtige Weg Lassen Sie mich, um meine Verwirrung zu erklären, Schritt für Schritt durch …


6
Schnellste SVM-Implementierung
Eher eine allgemeine Frage. Ich verwende eine rbf-SVM für die vorhersagende Modellierung. Ich denke, mein aktuelles Programm muss definitiv etwas beschleunigt werden. Ich benutze Scikit Learn mit einer Grob- bis Feinrastersuche + Kreuzvalidierung. Jeder SVM-Lauf dauert ungefähr eine Minute, aber bei all den Iterationen finde ich es immer noch zu …

7
Zufälliger Wald ist überpassend
Ich versuche, Random Forest Regression zum Erlernen von Scikits zu verwenden. Das Problem ist, dass ich einen sehr hohen Testfehler erhalte: train MSE, 4.64, test MSE: 252.25. So sehen meine Daten aus: (blau: echte Daten, grün: vorhergesagt): Ich benutze 90% für das Training und 10% für den Test. Dies ist …

3
Logistische Regression: Scikit Learn vs glmnet
Ich versuche, die Ergebnisse aus der sklearnlogistischen Regressionsbibliothek mit glmnetpackage in R zu duplizieren . Aus der Dokumentation der sklearnlogistischen Regression geht es darum, die Kostenfunktion unter l2 Penalty minw,c12wTw+C∑i=1Nlog(exp(−yi(XTiw+c))+1)minw,c12wTw+C∑i=1Nlog⁡(exp⁡(−yi(XiTw+c))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) Ausgehend von den Vignetten von glmnetminimiert seine Implementierung eine geringfügig andere Kostenfunktion minβ,β0−[1N∑i=1Nyi(β0+xTiβ)−log(1+e(β0+xTiβ))]+λ[(α−1)||β||22/2+α||β||1]minβ,β0−[1N∑i=1Nyi(β0+xiTβ)−log⁡(1+e(β0+xiTβ))]+λ[(α−1)||β||22/2+α||β||1]\min_{\beta, …


2
Warum tastet die scikit-learn-Bootstrap-Funktion den Testsatz erneut ab?
Bei der Verwendung von Bootstrapping für die Modellbewertung dachte ich immer, dass die Out-of-Bag-Proben direkt als Testsatz verwendet wurden. Dies scheint jedoch nicht der Fall zu sein für den veralteten Scikit-Lernansatz,Bootstrap bei dem der Testsatz aus dem Zeichnen mit Ersetzen aus der Out-of-Bag- Datenuntermenge aufgebaut zu werden scheint. Was ist …


2
Verwendung von verschachtelter Kreuzvalidierung
Die Seite von Scikit Learn zur Modellauswahl erwähnt die Verwendung von verschachtelter Kreuzvalidierung: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Zwei Kreuzvalidierungsschleifen werden parallel ausgeführt: eine vom GridSearchCV-Schätzer zum Festlegen von Gamma und eine vom cross_val_score zum Messen der Vorhersageleistung des Schätzers. Die resultierenden Scores sind …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.