Wiederholtes Zurückhalten von Teilmengen der Daten während der Modellanpassung, um die Modellleistung für die Teilmengen der zurückgehaltenen Daten zu quantifizieren.
Ich verstehe das Konzept der k-fachen Kreuzvalidierung , aber ich verstehe nicht, was eine "Falte" bedeutet. Zitat aus der verlinkten Seite auf Wikipedia: Der Kreuzvalidierungsprozess wird dann k-mal wiederholt (die Falten) Das scheint sehr vage zu sein. Bezieht sich die Falte auf jede Wiederholung des Prozesses? Oder ist es ein …
Ich bin kürzlich auf mehrere "informelle" Quellen gestoßen, die darauf hinweisen, dass wir unter bestimmten Umständen, wenn wir den AIC oder BIC zum Trainieren eines Zeitreihenmodells verwenden, die Daten nicht in Test und Training aufteilen müssen - wir können alle verwenden die Daten für das Training. (Zu den Quellen gehören …
Wenn wir einen großen Datensatz haben, können wir ihn im Allgemeinen in (1) Training, (2) Validierung und (3) Test aufteilen. Wir verwenden die Validierung, um die besten Hyperparameter bei der Kreuzvalidierung zu identifizieren (z. B. C in SVM), und trainieren dann das Modell unter Verwendung der besten Hyperparameter mit dem …
Ich führte Lasso durch und ließ dann eine einmalige Kreuzvalidierung aus cv<-cv.glmnet(df, df$Price, nfolds = 1500) Wenn ich einen Lebenslauf zeichne, erhalte ich Folgendes: Mir ist auch aufgefallen, dass ich 2 verschiedene Lambdas bekomme: lambda.minundlambda.1se Was ist der Unterschied zwischen diesen Lambdas? Was kann ich aus der obigen Darstellung im …
Ich benutze derzeit ein frühes Anhalten in meiner Arbeit, um eine Überanpassung zu verhindern. Speziell diejenigen, die aus dem frühen Stoppen stammen, aber wann? . Ich möchte jetzt mit anderen Klassifizierungsalgorithmen vergleichen, bei denen es den Anschein hat, dass eine 10-fache Kreuzvalidierung weit verbreitet ist. Ich bin jedoch verwirrt darüber, …
Wenn ich Regressionsmodelle verwende, bin ich misstrauisch, wenn ich auf Annahmen einer linearen Assoziation zurückgreife. stattdessen mag ich die funktionale Form von Beziehungen zwischen abhängigen und erklärenden Variablen Regression nichtparametrischer Glättung zu erforschen (zB verallgemeinerten Additivmodell , Lowess / Lowess , Linie Glätter läuft , etc.) , bevor ein parametrisches …
Auf dieser Wikipedia- Seite im Unterabschnitt für die K-fache Kreuzvalidierung heißt es: "Bei der k-fachen Kreuzvalidierung wird die ursprüngliche Stichprobe zufällig in k gleich große Teilstichproben aufgeteilt. Von den k Teilstichproben wird eine einzelne Teilstichprobe als Validierungsdaten für beibehalten Testen des Modells und die verbleibenden k - 1 Teilproben werden …
Mein Lehrbuch zur Kreuzvalidierung ist The Elements of Statistical Learning von Hastie et al. (2. Aufl.). In den Abschnitten 7.10.1 und 7.12, sie über den Unterschied zwischen bedingte Testfehler sprechen E.( X.∗, Y.∗)[ L ( Y., f^( X.) ) | τ]]E.(X.∗,Y.∗)[L.(Y.,f^(X.))|τ]]E_{(X^*,Y^*)}[L(Y, \hat{f}(X))|\tau] und erwarteter Testfehler Hier ist der Trainingsdatensatz, ist …
Ich habe einen kleinen, unausgeglichenen Datensatz (70 positiv, 30 negativ) und habe mit der Modellauswahl für SVM-Parameter unter Verwendung von BAC (ausgeglichene Genauigkeit) und AUC (Bereich unter der Kurve) herumgespielt. Ich habe verschiedene Klassengewichte für den C-Parameter in libSVM verwendet, um die unausgeglichenen Daten gemäß den hier angegebenen Anweisungen auszugleichen …
Ich habe ein Regressionsproblem mit 5-6k Variablen. Ich teile meine Daten in 3 nicht überlappende Sätze ein: Training, Validierung und Testen. Ich trainiere nur mit dem Trainingssatz und generiere viele verschiedene lineare Regressionsmodelle, indem ich für jedes Modell einen anderen Satz von 200 Variablen auswähle (ich versuche ungefähr 100.000 solcher …
Ich habe gelesen, dass eine ausgelassene Kreuzvalidierung eine relativ „unvoreingenommene Schätzung der tatsächlichen Generalisierungsleistung“ liefert (z. B. hier ) und dass dies eine vorteilhafte Eigenschaft des ausgelassenen Lebenslaufs ist. Ich sehe jedoch nicht, wie sich dies aus den Eigenschaften eines ausgelassenen Lebenslaufs ergibt. Warum ist die Tendenz dieses Schätzers im …
Wir haben einen kleinen Datensatz (ca. 250 Beispiele * 100 Features), auf dem wir nach Auswahl der besten Feature-Teilmenge einen binären Klassifikator erstellen möchten. Nehmen wir an, wir partitionieren die Daten in: Schulung, Validierung und Prüfung Für die Merkmalsauswahl wenden wir ein Wrapper-Modell an, das auf der Auswahl von Merkmalen …
Ich habe einige Beiträge zur Funktionsauswahl und Kreuzvalidierung gelesen, habe aber noch Fragen zum richtigen Verfahren. Angenommen, ich habe einen Datensatz mit 10 Funktionen und möchte die besten Funktionen auswählen. Angenommen, ich verwende einen Klassifikator für den nächsten Nachbarn. Kann ich mithilfe der Kreuzvalidierung eine umfassende Suche durchführen, um die …
Einführung Ich möchte die jährlichen Wachstumsraten für eine Reihe von makroökonomischen Indikatoren prognostizieren (mit ). Eine der Aufgaben besteht darin, die Prognoseleistung konkurrierender Zeitreihenmodelle mit und ohne exogene Variablen ( X t , eine T × k- Matrix) zu testen . Die Liste der Konkurrenzmodelle umfasst:YtYtY_tXtXtX_tT×kT×kT\times k AR (I) MA-Modell …
Ich verwende die Support-Vektor-Regression, um einige ziemlich verzerrte Daten (mit hoher Kurtosis) zu modellieren. Ich habe versucht, die Daten direkt zu modellieren, aber ich erhalte falsche Vorhersagen, die meiner Meinung nach hauptsächlich auf die Verteilung der Daten zurückzuführen sind, die mit sehr fetten Schwänzen verzerrt ist. Ich bin mir ziemlich …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.