Wiederholtes Zurückhalten von Teilmengen der Daten während der Modellanpassung, um die Modellleistung für die Teilmengen der zurückgehaltenen Daten zu quantifizieren.
Angenommen, ich habe zwei Lernmethoden für ein Klassifizierungsproblem , und , und ich schätze ihre Generalisierungsleistung mit etwas wie wiederholter Kreuzvalidierung oder Bootstrapping. Durch diesen Prozess erhalte ich eine Verteilung der Bewertungen und für jede Methode über diese Wiederholungen (z. B. die Verteilung der ROC-AUC-Werte für jedes Modell).AAABBB PAPAP_APBPBP_B Wenn …
Ich arbeite an einem Datensatz. Nachdem ich einige Modellidentifikationstechniken angewendet hatte, kam ich mit einem ARIMA (0,2,1) -Modell heraus. Ich habe die detectIOFunktion im Paket TSAin R verwendet, um bei der 48. Beobachtung meines ursprünglichen Datensatzes einen innovativen Ausreißer (IO) zu erkennen . Wie kann ich diesen Ausreißer in mein …
Bei der Aufteilung meiner beschrifteten Daten in Trainings-, Validierungs- und Testsätze habe ich alles vom 25.05.25 bis zum 05.05.10 gehört. Ich bin sicher, dass dies davon abhängt, wie Sie Ihr Modell verwenden und wie anfällig es ist, Ihren Lernalgorithmus zu überanpassen. Gibt es eine Möglichkeit zu entscheiden oder ist alles …
Ich habe ein GLMM der Form: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Wenn ich benutze drop1(model, test="Chi"), erhalte ich andere Ergebnisse als wenn ich Anova(model, type="III")aus dem Autopaket oder benutze summary(model). Diese beiden letzteren geben die gleichen Antworten. Unter Verwendung einer Reihe …
Wie sollte man bei mehreren Kreuzvalidierungsfalten einer logistischen Regression und den daraus resultierenden Mehrfachschätzungen jedes Regressionskoeffizienten messen, ob ein Prädiktor (oder eine Reihe von Prädiktoren) auf der Grundlage der Regressionskoeffizienten stabil und aussagekräftig ist / sind? ? Ist das bei linearer Regression anders?
Ich habe einen Datensatz mit ungefähr 70 Variablen, die ich reduzieren möchte. Ich möchte den Lebenslauf verwenden, um die nützlichsten Variablen auf folgende Weise zu finden. 1) Wählen Sie zufällig etwa 20 Variablen aus. 2) Verwenden Sie stepwise/ LASSO/ lars/ etc, um die wichtigsten Variablen auszuwählen. 3) Wiederholen Sie ~ …
Ich sehe oft Leute, die über 5x2-Kreuzvalidierung als Sonderfall der verschachtelten Kreuzvalidierung sprechen . Ich nehme an, die erste Zahl (hier: 5) bezieht sich auf die Anzahl der Falten in der inneren Schleife und die zweite Zahl (hier: 2) bezieht sich auf die Anzahl der Falten in der äußeren Schleife. …
Ich versuche herauszufinden, ob mein Verständnis der verschachtelten Kreuzvalidierung korrekt ist. Deshalb habe ich dieses Spielzeugbeispiel geschrieben, um zu sehen, ob ich Recht habe: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 # …
Ich versuche, ein zeitdiskretes Modell in R einzubauen, bin mir aber nicht sicher, wie ich das machen soll. Ich habe gelesen, dass Sie die abhängige Variable in verschiedenen Zeilen organisieren können, eine für jede glmZeitbeobachtung , und die Funktion mit einem Logit- oder Cloglog-Link verwenden können. In diesem Sinne, ich …
Meine Fragen beziehen sich auf GAMs im mgcv R-Paket. Aufgrund einer kleinen Stichprobengröße möchte ich den Vorhersagefehler mithilfe einer einmaligen Kreuzvalidierung ermitteln. Ist das vernünftig? Gibt es ein Paket oder einen Code, wie ich das machen kann? Die errorest()Funktion im ipred- Paket funktioniert nicht. Ein einfacher Testdatensatz ist: library(mgcv) set.seed(0) …
Werden Standardabweichungsschätzungen berechnet über: sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√.sN=1N∑i=1N(xi−x¯)2. s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}. ( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation ) für Vorhersagegenauigkeiten, die aus einer 10-fachen Kreuzvalidierung entnommen wurden? Ich bin besorgt, dass die zwischen jeder Falte berechnete Vorhersagegenauigkeit aufgrund der erheblichen Überlappung zwischen Trainingssätzen abhängig ist (obwohl die Vorhersagesätze unabhängig sind). Alle Ressourcen, die …
In den meisten Situationen beschäftigen wir uns nur mit einer Ergebnis- / Antwortvariablen wie . In einigen Szenarien, insbesondere in den klinischen Daten, können die Ergebnisvariablen jedoch hochdimensional / multivariat sein. Beispiel: , wobei die , und enthält und diese Ergebnisse alle korreliert sind. Wenn die Behandlung darstellt (Ja / …
Bei der Durchführung einer 5-fachen Kreuzvalidierung (zum Beispiel) ist es typisch, eine separate ROC-Kurve für jede der 5-fachen und häufig eine mittlere ROC-Kurve mit Standard zu berechnen. dev. als Kurvendicke dargestellt. Für die LOO-Kreuzvalidierung, bei der nur ein einziger Testdatenpunkt in jeder Falte vorhanden ist, erscheint es jedoch nicht sinnvoll, …
Ich habe bereits Erfahrungen mit der "normalen" K-fachen Kreuzvalidierung für die Modelloptimierung gesammelt und bin durch die Anwendung in Zeitreihenmodellen leicht verwirrt. Nach meinem Verständnis ist die Folge für die Kreuzvalidierung für Zeitreihenmodelle das von Hyndman beschriebene Verfahren des "Rolling Forward Origin" . Dies ist für mich sehr sinnvoll und …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.