Als «cross-validation» getaggte Fragen

Wiederholtes Zurückhalten von Teilmengen der Daten während der Modellanpassung, um die Modellleistung für die Teilmengen der zurückgehaltenen Daten zu quantifizieren.



1
Wie erhalte ich optimale Hyperparameter nach verschachtelter Kreuzvalidierung?
Wenn wir einen großen Datensatz haben, können wir ihn im Allgemeinen in (1) Training, (2) Validierung und (3) Test aufteilen. Wir verwenden die Validierung, um die besten Hyperparameter bei der Kreuzvalidierung zu identifizieren (z. B. C in SVM), und trainieren dann das Modell unter Verwendung der besten Hyperparameter mit dem …

1
Wie interpretiere ich den Plot von cv.glmnet ()?
Ich führte Lasso durch und ließ dann eine einmalige Kreuzvalidierung aus cv<-cv.glmnet(df, df$Price, nfolds = 1500) Wenn ich einen Lebenslauf zeichne, erhalte ich Folgendes: Mir ist auch aufgefallen, dass ich 2 verschiedene Lambdas bekomme: lambda.minundlambda.1se Was ist der Unterschied zwischen diesen Lambdas? Was kann ich aus der obigen Darstellung im …

3
Frühes Stoppen gegen Kreuzvalidierung
Ich benutze derzeit ein frühes Anhalten in meiner Arbeit, um eine Überanpassung zu verhindern. Speziell diejenigen, die aus dem frühen Stoppen stammen, aber wann? . Ich möchte jetzt mit anderen Klassifizierungsalgorithmen vergleichen, bei denen es den Anschein hat, dass eine 10-fache Kreuzvalidierung weit verbreitet ist. Ich bin jedoch verwirrt darüber, …

1
Kreuzvalidierung mit nichtparametrischen Glättungsregressionen
Wenn ich Regressionsmodelle verwende, bin ich misstrauisch, wenn ich auf Annahmen einer linearen Assoziation zurückgreife. stattdessen mag ich die funktionale Form von Beziehungen zwischen abhängigen und erklärenden Variablen Regression nichtparametrischer Glättung zu erforschen (zB verallgemeinerten Additivmodell , Lowess / Lowess , Linie Glätter läuft , etc.) , bevor ein parametrisches …


2
Die Bedeutung des bedingten Testfehlers gegenüber dem erwarteten Testfehler bei der Kreuzvalidierung
Mein Lehrbuch zur Kreuzvalidierung ist The Elements of Statistical Learning von Hastie et al. (2. Aufl.). In den Abschnitten 7.10.1 und 7.12, sie über den Unterschied zwischen bedingte Testfehler sprechen E.( X.∗, Y.∗)[ L ( Y., f^( X.) ) | τ]]E.(X.∗,Y.∗)[L.(Y.,f^(X.))|τ]]E_{(X^*,Y^*)}[L(Y, \hat{f}(X))|\tau] und erwarteter Testfehler Hier ist der Trainingsdatensatz, ist …

3
Auswählen einer Klassifizierungsleistungsmetrik für die Modellauswahl, Merkmalsauswahl und Veröffentlichung
Ich habe einen kleinen, unausgeglichenen Datensatz (70 positiv, 30 negativ) und habe mit der Modellauswahl für SVM-Parameter unter Verwendung von BAC (ausgeglichene Genauigkeit) und AUC (Bereich unter der Kurve) herumgespielt. Ich habe verschiedene Klassengewichte für den C-Parameter in libSVM verwendet, um die unausgeglichenen Daten gemäß den hier angegebenen Anweisungen auszugleichen …

2
Umgang mit guten Leistungen bei Trainings- und Validierungsdaten, aber sehr schlechten Leistungen bei Testdaten
Ich habe ein Regressionsproblem mit 5-6k Variablen. Ich teile meine Daten in 3 nicht überlappende Sätze ein: Training, Validierung und Testen. Ich trainiere nur mit dem Trainingssatz und generiere viele verschiedene lineare Regressionsmodelle, indem ich für jedes Modell einen anderen Satz von 200 Variablen auswähle (ich versuche ungefähr 100.000 solcher …

1
Ausgelassene Kreuzvalidierung: Relativ unvoreingenommene Schätzung der Generalisierungsleistung?
Ich habe gelesen, dass eine ausgelassene Kreuzvalidierung eine relativ „unvoreingenommene Schätzung der tatsächlichen Generalisierungsleistung“ liefert (z. B. hier ) und dass dies eine vorteilhafte Eigenschaft des ausgelassenen Lebenslaufs ist. Ich sehe jedoch nicht, wie sich dies aus den Eigenschaften eines ausgelassenen Lebenslaufs ergibt. Warum ist die Tendenz dieses Schätzers im …

6
Ist die Verwendung derselben Daten für die Merkmalsauswahl und Kreuzvalidierung voreingenommen oder nicht?
Wir haben einen kleinen Datensatz (ca. 250 Beispiele * 100 Features), auf dem wir nach Auswahl der besten Feature-Teilmenge einen binären Klassifikator erstellen möchten. Nehmen wir an, wir partitionieren die Daten in: Schulung, Validierung und Prüfung Für die Merkmalsauswahl wenden wir ein Wrapper-Modell an, das auf der Auswahl von Merkmalen …

3
Kann ich eine umfassende Suche mit Kreuzvalidierung für die Funktionsauswahl durchführen?
Ich habe einige Beiträge zur Funktionsauswahl und Kreuzvalidierung gelesen, habe aber noch Fragen zum richtigen Verfahren. Angenommen, ich habe einen Datensatz mit 10 Funktionen und möchte die besten Funktionen auswählen. Angenommen, ich verwende einen Klassifikator für den nächsten Nachbarn. Kann ich mithilfe der Kreuzvalidierung eine umfassende Suche durchführen, um die …

1
Klappmesser mit Zeitreihenmodellen
Einführung Ich möchte die jährlichen Wachstumsraten für eine Reihe von makroökonomischen Indikatoren prognostizieren (mit ). Eine der Aufgaben besteht darin, die Prognoseleistung konkurrierender Zeitreihenmodelle mit und ohne exogene Variablen ( X t , eine T × k- Matrix) zu testen . Die Liste der Konkurrenzmodelle umfasst:YtYtY_tXtXtX_tT×kT×kT\times k AR (I) MA-Modell …

3
Unterstützung der Vektorregression bei Daten mit verzerrter / hoher Kurtosis
Ich verwende die Support-Vektor-Regression, um einige ziemlich verzerrte Daten (mit hoher Kurtosis) zu modellieren. Ich habe versucht, die Daten direkt zu modellieren, aber ich erhalte falsche Vorhersagen, die meiner Meinung nach hauptsächlich auf die Verteilung der Daten zurückzuführen sind, die mit sehr fetten Schwänzen verzerrt ist. Ich bin mir ziemlich …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.