Statistiken und Big Data scikit-learn

3

XGBoost vs Python Sklearn-Bäume wurden mit einem Anstieg versehen

Ich versuche zu verstehen, wie XGBoost funktioniert. Ich verstehe bereits, wie gradientenverstärkte Bäume auf Python Sklearn funktionieren. Was mir nicht klar ist, ist, ob XGBoost auf die gleiche Weise funktioniert, aber schneller, oder ob es grundlegende Unterschiede zwischen ihm und der Python-Implementierung gibt. Wenn ich diese Zeitung lese http://learningsys.org/papers/LearningSys_2015_paper_32.pdf Für …

20 scikit-learn boosting gbm xgboost

2

Multilabel-Klassifizierungsmetriken für Scikit

Ich versuche, einen Multi-Label-Klassifikator zu erstellen, um vorhandenen Dokumenten mithilfe von Scikit Themen zuzuweisen Ich bearbeite meine Dokumente, indem ich sie über TfidfVectorizerdie Etiketten durch die MultiLabelBinarizerund OneVsRestClassifiermit einerSGDClassifier als Schätzer erstellte. Beim Testen meines Klassifikators erhalte ich jedoch nur Punkte bis zu 0,29 , was nach meiner Lektüre für …

19 scikit-learn multi-class multilabel

2

Zufälliger Wald ist überpassend?

Ich experimentiere mit Scikit-Learn in zufälligen Wäldern und erhalte großartige Ergebnisse mit meinem Trainingssatz, aber relativ schlechte Ergebnisse mit meinem Testsatz ... Hier ist das Problem (inspiriert vom Poker), das ich zu lösen versuche: Mit den Hole Cards von Spieler A, den Hole Cards von Spieler B und einem Flop …

19 classification random-forest scikit-learn

3

Wie man die Standardfehler der Koeffizienten einer logistischen Regression berechnet

Ich benutze Pythons Scikit-Learn, um eine logistische Regression zu trainieren und zu testen. scikit-learn gibt die Regressionskoeffizienten der unabhängigen Variablen zurück, liefert jedoch nicht die Standardfehler der Koeffizienten. Ich benötige diese Standardfehler, um eine Wald-Statistik für jeden Koeffizienten zu berechnen und diese Koeffizienten miteinander zu vergleichen. Ich habe eine Beschreibung …

18 logistic python standard-error regression-coefficients scikit-learn

3

Warum nicht die „normalen Gleichungen“ verwenden, um einfache Koeffizienten kleinster Quadrate zu finden?

Ich habe diese Liste hier gesehen und konnte nicht glauben, dass es so viele Möglichkeiten gibt, die kleinsten Quadrate zu lösen. Die "normalen Gleichungen" in Wikipedia schienen ein recht einfacher Weg zu sein: α^β^= y¯- β^x¯,= ∑nich= 1( xich- x¯) ( yich- y¯)∑ni = 1( xich- x¯)2α^=y¯-β^x¯,β^=∑ich=1n(xich-x¯)(yich-y¯)∑ich=1n(xich-x¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha …

17 regression least-squares scikit-learn

3

Wie kann man kollineare Variablen in Python systematisch entfernen? [geschlossen]

Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie zum Thema passt für Kreuz Validated. Geschlossen vor 2 Jahren . Bisher habe ich kollineare Variablen als Teil des Datenvorbereitungsprozesses entfernt, indem ich Korrelationstabellen betrachtet …

17 python multicollinearity scikit-learn

3

Wie erhält man Hyperparameter in einer verschachtelten Kreuzvalidierung?

Ich habe die folgenden Beiträge zur geschachtelten Kreuzvalidierung gelesen und bin mir immer noch nicht 100% sicher, was ich mit der Modellauswahl mit geschachtelter Kreuzvalidierung tun soll: Verschachtelte Kreuzvalidierung für die Modellauswahl Modellauswahl und Kreuzvalidierung: Der richtige Weg Lassen Sie mich, um meine Verwirrung zu erklären, Schritt für Schritt durch …

16 cross-validation scikit-learn hyperparameter

3

Kollineare Variablen im Multiclass-LDA-Training

Ich trainiere einen LDA-Klassifikator für mehrere Klassen mit 8 Datenklassen. Während des Trainings bekomme ich eine Warnung von: " Variablen sind kollinear " Ich erhalte eine Trainingsgenauigkeit von über 90% . Ich verwende eine Scikits-Lernbibliothek in Python , um die Daten für mehrere Klassen zu trainieren und zu testen. Ich …

16 machine-learning classification python scikit-learn discriminant-analysis

6

Schnellste SVM-Implementierung

Eher eine allgemeine Frage. Ich verwende eine rbf-SVM für die vorhersagende Modellierung. Ich denke, mein aktuelles Programm muss definitiv etwas beschleunigt werden. Ich benutze Scikit Learn mit einer Grob- bis Feinrastersuche + Kreuzvalidierung. Jeder SVM-Lauf dauert ungefähr eine Minute, aber bei all den Iterationen finde ich es immer noch zu …

16 machine-learning svm predictive-models scikit-learn kernel-trick

7

Zufälliger Wald ist überpassend

Ich versuche, Random Forest Regression zum Erlernen von Scikits zu verwenden. Das Problem ist, dass ich einen sehr hohen Testfehler erhalte: train MSE, 4.64, test MSE: 252.25. So sehen meine Daten aus: (blau: echte Daten, grün: vorhergesagt): Ich benutze 90% für das Training und 10% für den Test. Dies ist …

15 regression random-forest scikit-learn

3

Logistische Regression: Scikit Learn vs glmnet

Ich versuche, die Ergebnisse aus der sklearnlogistischen Regressionsbibliothek mit glmnetpackage in R zu duplizieren . Aus der Dokumentation der sklearnlogistischen Regression geht es darum, die Kostenfunktion unter l2 Penalty minw,c12wTw+C∑i=1Nlog(exp(−yi(XTiw+c))+1)minw,c12wTw+C∑i=1Nlog⁡(exp⁡(−yi(XiTw+c))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) Ausgehend von den Vignetten von glmnetminimiert seine Implementierung eine geringfügig andere Kostenfunktion minβ,β0−[1N∑i=1Nyi(β0+xTiβ)−log(1+e(β0+xTiβ))]+λ[(α−1)||β||22/2+α||β||1]minβ,β0−[1N∑i=1Nyi(β0+xiTβ)−log⁡(1+e(β0+xiTβ))]+λ[(α−1)||β||22/2+α||β||1]\min_{\beta, …

15 r logistic python scikit-learn glmnet

3

Methoden, um das Problem fehlender Daten beim maschinellen Lernen zu umgehen

Nahezu jede Datenbank, die wir mithilfe von Algorithmen für maschinelles Lernen vorhersagen möchten, findet für einige der Merkmale fehlende Werte. Es gibt verschiedene Ansätze, um dieses Problem zu lösen und Zeilen mit fehlenden Werten auszuschließen, bis sie mit den Mittelwerten der Merkmale gefüllt sind. Ich würde gerne einen etwas robusteren …

15 machine-learning scikit-learn data-imputation

2

Warum tastet die scikit-learn-Bootstrap-Funktion den Testsatz erneut ab?

Bei der Verwendung von Bootstrapping für die Modellbewertung dachte ich immer, dass die Out-of-Bag-Proben direkt als Testsatz verwendet wurden. Dies scheint jedoch nicht der Fall zu sein für den veralteten Scikit-Lernansatz,Bootstrap bei dem der Testsatz aus dem Zeichnen mit Ersetzen aus der Out-of-Bag- Datenuntermenge aufgebaut zu werden scheint. Was ist …

15 cross-validation bootstrap random-forest scikit-learn bagging

2

Scikit-Methode zum Kalibrieren von Klassifikatoren mit CalibratedClassifierCV

Scikit verfügt über CalibratedClassifierCV , mit dem wir unsere Modelle für ein bestimmtes X, Y-Paar kalibrieren können. Es heißt auch klar, dassdata for fitting the classifier and for calibrating it must be disjoint. Wenn sie disjunkt sein müssen, ist es legitim, den Klassifikator mit den folgenden zu trainieren? model = …

14 cross-validation scikit-learn validation train calibration

2

Verwendung von verschachtelter Kreuzvalidierung

Die Seite von Scikit Learn zur Modellauswahl erwähnt die Verwendung von verschachtelter Kreuzvalidierung: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Zwei Kreuzvalidierungsschleifen werden parallel ausgeführt: eine vom GridSearchCV-Schätzer zum Festlegen von Gamma und eine vom cross_val_score zum Messen der Vorhersageleistung des Schätzers. Die resultierenden Scores sind …

14 machine-learning cross-validation scikit-learn

Als «scikit-learn» getaggte Fragen