Statistiken und Big Data cross-validation

1

So beheben Sie die Nichtkonvergenz in LogisticRegressionCV

Ich verwende scikit-learn, um eine logistische Regression mit Kreuzvalidierung für einen Datensatz durchzuführen (ungefähr 14 Parameter mit> 7000 normalisierten Beobachtungen). Ich habe auch einen Zielklassifikator, der entweder den Wert 1 oder 0 hat. Das Problem, das ich habe, ist, dass ich unabhängig vom verwendeten Solver immer wieder Konvergenzwarnungen erhalte ... …

12 logistic cross-validation scikit-learn

2

Ist die Fehlerrate eine konvexe Funktion des Regularisierungsparameters Lambda?

Bei der Auswahl des Regularisierungsparameters Lambda in Ridge oder Lasso wird empfohlen, verschiedene Lambda-Werte auszuprobieren, den Fehler im Validierungssatz zu messen und schließlich den Lambda-Wert auszuwählen, der den niedrigsten Fehler zurückgibt. Es ist mir kein Problem, wenn die Funktion f (Lambda) = Fehler konvex ist. Könnte es so sein? Dh …

11 cross-validation error regularization validation optimization

2

Ist die Aufteilung der Daten in Test- und Trainingssätze eine reine Statistiksache?

Ich bin ein Physikstudent, der maschinelles Lernen / Datenwissenschaft studiert, daher meine ich nicht, dass diese Frage Konflikte auslöst :) Ein großer Teil eines Physik-Bachelor-Programms besteht jedoch darin, Labore / Experimente durchzuführen, was eine Menge Daten bedeutet Verarbeitung und statistische Analyse. Ich bemerke jedoch einen starken Unterschied zwischen der Art …

11 regression machine-learning cross-validation dataset experiment-design

4

Was ist der geeignetere Weg, um ein Hold-out-Set zu erstellen: einige Themen zu entfernen oder einige Beobachtungen von jedem Thema zu entfernen?

Ich habe einen Datensatz mit 26 Funktionen und 31000 Zeilen. Es ist der Datensatz von 38 Probanden. Es ist für ein biometrisches System. Ich möchte also in der Lage sein, Themen zu identifizieren. Ich weiß, dass ich einige Werte entfernen muss, um einen Testsatz zu haben. Was ist besser und …

11 machine-learning cross-validation out-of-sample

1

Warum senkt eine große Auswahl an K meine Kreuzvalidierungsbewertung?

Beim Herumspielen mit dem Boston Housing Dataset und RandomForestRegressor(mit Standardparametern) beim Scikit-Lernen fiel mir etwas Seltsames auf: Der durchschnittliche Kreuzvalidierungswert nahm ab, als ich die Anzahl der Falten über 10 erhöhte. Meine Kreuzvalidierungsstrategie lautete wie folgt: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... wo num_cvswar abwechslungsreich. …

11 machine-learning cross-validation random-forest sample-size scikit-learn

2

Kreuzvalidierung nach LASSO in komplexen Umfragedaten

Ich versuche, mit LASSO eine Modellauswahl für einige Kandidaten-Prädiktoren mit einem kontinuierlichen Ergebnis durchzuführen. Das Ziel besteht darin, das optimale Modell mit der besten Vorhersageleistung auszuwählen, was normalerweise durch K-fache Kreuzvalidierung erfolgen kann, nachdem ein Lösungspfad der Abstimmungsparameter von LASSO erhalten wurde. Das Problem hierbei ist, dass die Daten aus …

11 cross-validation survey lasso glmnet

1

Wie wähle ich einen Kernel für Kernel PCA?

Wie kann ausgewählt werden, welcher Kernel zu einer guten Datentrennung bei der endgültigen Datenausgabe durch die Kernel-PCA (Hauptkomponentenanalyse) führen würde, und wie können die Parameter des Kernels optimiert werden? Wenn möglich, wären Laienbegriffe sehr willkommen, und Links zu Artikeln, die solche Methoden erklären, wären ebenfalls nett.

11 pca cross-validation dimensionality-reduction kernel-trick manifold-learning

3

Konfidenzintervall für die kreuzvalidierte Klassifizierungsgenauigkeit

Ich arbeite an einem Klassifizierungsproblem, das eine Ähnlichkeitsmetrik zwischen zwei eingegebenen Röntgenbildern berechnet. Wenn die Bilder von derselben Person stammen (Bezeichnung "rechts"), wird eine höhere Metrik berechnet. Eingabebilder von zwei verschiedenen Personen (Bezeichnung "falsch") führen zu einer niedrigeren Metrik. Ich habe eine geschichtete 10-fache Kreuzvalidierung verwendet, um die Wahrscheinlichkeit einer …

11 classification confidence-interval cross-validation matlab

1

Mittelung der Präzision und des Rückrufs bei Verwendung der Kreuzvalidierung

Ich habe eine Klassifizierung unter Verwendung mehrerer Klassifizierer für Daten mit 2 Klassen durchgeführt und eine 5-fache Kreuzvalidierung verwendet. Für jede Falte berechnete ich tp, tn, fp und fn. Dann berechnete ich die Genauigkeit, Präzision, Rückruf und F-Punktzahl für jeden Test. Meine Frage ist, wenn ich die Ergebnisse mitteln möchte, …

11 classification cross-validation precision-recall

1

Wie können Sie feststellen, ob ein Gaußscher Prozess überpasst?

Ich trainiere einen Gaußschen Prozess mit einem ARD-Kernel mit vielen Parametern, indem ich die marginale Lielihood der Daten maximiere, anstatt sie gegenseitig zu validieren. Ich vermute, dass es überpassend ist. Wie kann ich diesen Verdacht in einem Bayes'schen Kontext testen?

11 machine-learning cross-validation gaussian-process

2

Kreuzvalidierung und Parameteroptimierung

Ich habe eine Frage zur Parameteroptimierung, wenn ich die 10-fache Kreuzvalidierung verwende. Ich möchte fragen, ob die Parameter während des Modelltrainings jeder Falte festgelegt werden sollen oder nicht, dh (1) einen Satz optimierter Parameter für die durchschnittliche Genauigkeit jeder Falte auswählen. oder (2) Ich sollte den optimierten Parameter für jede …

11 cross-validation optimization parameterization

1

Bayesianische, MDL- oder ML-Interpretation der Kreuzvalidierung?

Gibt es eine bekannte Bayes'sche, ML- oder MDL-Interpretation der Kreuzvalidierung? Kann ich die Kreuzvalidierung so interpretieren, dass das richtige Update für einen speziell erstellten Prior durchgeführt wird?

11 bayesian cross-validation maximum-likelihood

3

Aufteilen von Zeitreihendaten in Zug- / Test- / Validierungssätze

Was ist der beste Weg, um Zeitreihendaten in Zug- / Test- / Validierungssätze aufzuteilen, wobei der Validierungssatz für die Optimierung von Hyperparametern verwendet wird? Wir haben tägliche Verkaufsdaten im Wert von 3 Jahren. Unser Plan ist es, 2015-2016 als Trainingsdaten zu verwenden, dann 10 Wochen aus den 2017-Daten, die als …

11 time-series cross-validation validation

1

R / mgcv: Warum produzieren te () und ti () Tensorprodukte unterschiedliche Oberflächen?

Das mgcvPaket für Rhat zwei Funktionen zum Anpassen von Tensorproduktwechselwirkungen: te()und ti(). Ich verstehe die grundlegende Arbeitsteilung zwischen den beiden (Anpassen einer nichtlinearen Wechselwirkung vs. Zerlegen dieser Wechselwirkung in Haupteffekte und eine Wechselwirkung). Was ich nicht verstehe, ist warum te(x1, x2)und ti(x1) + ti(x2) + ti(x1, x2)kann (leicht) unterschiedliche Ergebnisse …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

Genaue Definition des Abweichungsmaßes im glmnet-Paket mit Kreuzvalidierung?

Für meine aktuelle Forschung verwende ich die Lasso-Methode über das glmnet-Paket in R für eine binomialabhängige Variable. In glmnet wird das optimale Lambda durch Kreuzvalidierung ermittelt und die resultierenden Modelle können mit verschiedenen Maßnahmen verglichen werden, z. B. Fehlklassifizierungen oder Abweichungen. Meine Frage: Wie genau ist Abweichung in glmnet definiert? …

11 cross-validation lasso glmnet deviance lars

Als «cross-validation» getaggte Fragen