Statistiken und Big Data scikit-learn

1

Wie kann der Datensatz für die Kreuzvalidierung, Lernkurve und Endbewertung aufgeteilt werden?

Was ist eine geeignete Strategie zur Aufteilung des Datensatzes? Ich bitte um Feedback zu dem folgenden Ansatz (nicht zu den einzelnen Parametern wie test_sizeoder n_iter, aber wenn ich verwende X, y, X_train, y_train, X_test, und in y_testgeeigneter Weise und wenn die Sequenz macht Sinn): (Erweiterung dieses Beispiels aus der Scikit-Learn-Dokumentation) …

70 machine-learning cross-validation python scikit-learn

1

One-Hot vs Dummy-Codierung in Scikit-Learn

Es gibt zwei verschiedene Möglichkeiten, kategoriale Variablen zu codieren. Angenommen, eine kategoriale Variable hat n Werte. One-Hot-Codierung konvertiert es in n Variablen, während Dummy-Codierung es in n-1 Variablen konvertiert . Wenn wir k kategoriale Variablen haben, von denen jede n Werte hat. Eine heiße Codierung endet mit kn- Variablen, während …

50 regression categorical-data data-transformation scikit-learn data-preprocessing

5

Wie interpretiert man SVM-Feature-Gewichte?

Ich versuche, die variablen Gewichte zu interpretieren, die durch Anpassen einer linearen SVM gegeben sind. (Ich benutze Scikit-Learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Ich kann in der Dokumentation nichts finden, was genau angibt, wie diese Gewichte berechnet oder interpretiert werden. Hat das Vorzeichen des …

42 svm feature-selection python scikit-learn

2

Pandas / Statsmodel / Scikit-lernen

Lernen Pandas, Statsmodels und Scikit unterschiedliche Implementierungen von maschinellem Lernen / statistischen Operationen oder ergänzen sich diese? Welche davon bietet die umfassendste Funktionalität? Welches wird aktiv entwickelt und / oder unterstützt? Ich muss eine logistische Regression implementieren. Irgendwelche Vorschläge, welche davon ich verwenden soll?

41 machine-learning python scikit-learn statsmodels pandas

2

Logistische Regression: Scikit Learn gegen Statsmodels

Ich versuche zu verstehen, warum die Ergebnisse der logistischen Regression dieser beiden Bibliotheken unterschiedliche Ergebnisse liefern. Ich verwende den Datensatz von der UCLA idre Tutorial , die Vorhersage admitbasiert auf gre, gpaund rank. rankwird als kategoriale Variable behandelt, daher wird sie zuerst mit rank_1drop in eine Dummy-Variable konvertiert . Eine …

31 regression logistic python scikit-learn statsmodels

3

Polynom-Regression mit Scikit-Learn

Ich versuche, Scikit-Learn für die Polynom-Regression zu verwenden. Nach meinem Verständnis ist die polynomielle Regression ein Sonderfall der linearen Regression. Ich habe gehofft, dass vielleicht eines der generalisierten linearen Modelle von scikit für Polynome höherer Ordnung parametrisiert werden kann, aber ich sehe keine Möglichkeit, dies zu tun. Ich habe es …

29 regression machine-learning large-data polynomial scikit-learn

1

Was bedeuten die Zahlen im Klassifizierungsbericht von sklearn?

Ich habe unten ein Beispiel aus der Dokumentation sklearn.metrics.classification_report von sklearn. Was ich nicht verstehe, ist, warum es für jede Klasse, für die ich glaube, dass die Klasse das Prädiktorlabel ist, Werte für f1-Punktzahl, Präzision und Rückruf gibt? Ich dachte, der f1-Score sagt Ihnen die Gesamtgenauigkeit des Modells. Was sagt …

29 machine-learning python scikit-learn precision-recall

1

Können Freiheitsgrade eine nicht ganzzahlige Zahl sein?

Wenn ich GAM verwende, erhalte ich einen DF-Rest von (letzte Zeile im Code). Was bedeutet das? Über das GAM-Beispiel hinausgehend: Kann die Anzahl der Freiheitsgrade im Allgemeinen eine nicht ganzzahlige Zahl sein?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

2

Fläche unter Precision-Recall-Kurve (AUC der PR-Kurve) und Average Precision (AP)

Ist Average Precision (AP) der Bereich unter Precision-Recall Curve (AUC der PR-Kurve)? BEARBEITEN: Hier ist ein Kommentar zum Unterschied zwischen PR AUC und AP. Die AUC wird durch trapezförmige Interpolation der Präzision erhalten. Eine alternative und in der Regel fast äquivalente Metrik ist die Average Precision (AP), die als info.ap …

27 scikit-learn precision-recall auc average-precision

4

Ensemble verschiedener Arten von Regressoren, die Scikit-Learn (oder ein anderes Python-Framework) verwenden

Ich versuche die Regressionsaufgabe zu lösen. Ich habe herausgefunden, dass 3 Modelle für verschiedene Teilmengen von Daten gut funktionieren: LassoLARS, SVR und Gradient Tree Boosting. Mir ist aufgefallen, dass ich, wenn ich mit all diesen drei Modellen Vorhersagen mache und dann eine Tabelle mit den tatsächlichen Ergebnissen meiner drei Modelle …

27 regression scikit-learn ensemble

2

Warum funktioniert Pythons Scikit-Learn-LDA nicht richtig und wie berechnet es LDA über SVD?

Ich habe die lineare Diskriminanzanalyse (LDA) aus der scikit-learnmaschinellen Lernbibliothek (Python) zur Dimensionsreduktion verwendet und war ein wenig neugierig auf die Ergebnisse. Ich frage mich jetzt, was die LDA scikit-learntut, damit die Ergebnisse anders aussehen als beispielsweise ein manueller Ansatz oder eine in R durchgeführte LDA. Es wäre großartig, wenn …

26 python scikit-learn dimensionality-reduction discriminant-analysis svd

2

Mittlerer absoluter prozentualer Fehler (MAPE) in Scikit-Learn [geschlossen]

Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen vor 2 Jahren . Wie können wir den mittleren absoluten prozentualen Fehler (MAPE) unserer Vorhersagen mit Python und Scikit-Learn …

23 predictive-models python scikit-learn mape

5

Überanpassung: Keine Wunderwaffe?

Mein Verständnis ist , dass , selbst wenn nach ordnungsgemäßem Kreuzvalidierung und Modellauswahlverfahren, Überanpassung wird , wenn man sucht nach einem Modell passiert schwer genug , wenn man nicht erlegt Beschränkungen Modellkomplexität, period. Darüber hinaus wird häufig versucht, aus den Daten Strafen für die Modellkomplexität zu lernen, die den Schutz …

21 machine-learning cross-validation goodness-of-fit scikit-learn caret

2

Verwendung der Cross-Validation-Funktionen von scikit-learn für Multi-Label-Klassifikatoren

Ich teste verschiedene Klassifikatoren in einem Datensatz, in dem es 5 Klassen gibt und jede Instanz zu einer oder mehreren dieser Klassen gehören kann. Daher verwende ich speziell die Multi-Label-Klassifikatoren von scikit-learn sklearn.multiclass.OneVsRestClassifier. Jetzt möchte ich eine Kreuzvalidierung mit der durchführen sklearn.cross_validation.StratifiedKFold. Dies erzeugt den folgenden Fehler: Traceback (most recent …

20 cross-validation python multi-class scikit-learn multilabel

2

PCA in Numpy und Sklearn führt zu unterschiedlichen Ergebnissen

Verstehe ich etwas falsch? Das ist mein Code mit sklearn import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D from sklearn import decomposition from sklearn import datasets from sklearn.preprocessing import StandardScaler pca = decomposition.PCA(n_components=3) x = np.array([ [0.387,4878, 5.42], [0.723,12104,5.25], [1,12756,5.52], [1.524,6787,3.94], ]) pca.fit_transform(x) Ausgabe: array([[ -4.25324997e+03, …

20 pca python scikit-learn

Als «scikit-learn» getaggte Fragen