Als «cross-validation» getaggte Fragen

Wiederholtes Zurückhalten von Teilmengen der Daten während der Modellanpassung, um die Modellleistung für die Teilmengen der zurückgehaltenen Daten zu quantifizieren.

2
Hohe Varianz der einmaligen Kreuzvalidierung
Ich habe immer wieder gelesen, dass die Kreuzvalidierung "Auslassen" aufgrund der großen Überlappung der Trainingsfalten eine hohe Varianz aufweist. Ich verstehe jedoch nicht, warum das so ist: Sollte die Leistung der Kreuzvalidierung nicht sehr stabil sein (geringe Varianz), gerade weil die Trainingssätze fast identisch sind? Oder habe ich ein falsches …

1
Was ist, wenn die Validierungsgenauigkeit hoch und die Testgenauigkeit in der Forschung niedrig ist?
Ich habe eine spezielle Frage zur Validierung in der maschinellen Lernforschung. Wie wir wissen, fordert das Regime des maschinellen Lernens die Forscher auf, ihre Modelle anhand der Trainingsdaten zu trainieren, anhand des Validierungssatzes aus den Kandidatenmodellen auszuwählen und die Genauigkeit des Testsatzes zu melden. In einer sehr strengen Studie kann …


3
Wie wählt man eine optimale Anzahl latenter Faktoren bei der nicht-negativen Matrixfaktorisierung?
Bei gegebener Matrix findet die nicht negative Matrixfaktorisierung (NMF) zwei nicht negative Matrizen und ( dh mit allen Elementen ) zur Darstellung der zerlegten Matrix als:Vm×nVm×n\mathbf V^{m \times n}Wm×kWm×k\mathbf W^{m \times k}Hk×nHk×n\mathbf H^{k \times n}≥0≥0\ge 0 V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, Zum Beispiel, indem Sie verlangen, dass nicht negative …

1
Welche Mehrfachvergleichsmethode kann für ein älteres Modell verwendet werden: lsmeans oder glht?
Ich analysiere einen Datensatz unter Verwendung eines gemischten Effektmodells mit einem festen Effekt (Bedingung) und zwei zufälligen Effekten (Teilnehmer aufgrund des innerhalb des Motivs und des Paares). Das Modell wurde mit dem erzeugten lme4Paket: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Als nächstes führte ich einen Likelihood-Ratio-Test dieses Modells gegen das Modell ohne festen Effekt (Bedingung) …

2
Warum tastet die scikit-learn-Bootstrap-Funktion den Testsatz erneut ab?
Bei der Verwendung von Bootstrapping für die Modellbewertung dachte ich immer, dass die Out-of-Bag-Proben direkt als Testsatz verwendet wurden. Dies scheint jedoch nicht der Fall zu sein für den veralteten Scikit-Lernansatz,Bootstrap bei dem der Testsatz aus dem Zeichnen mit Ersetzen aus der Out-of-Bag- Datenuntermenge aufgebaut zu werden scheint. Was ist …

3
Wie wird eine Datenerweiterung und eine Aufteilung der Zugvalidierung durchgeführt?
Ich mache eine Bildklassifizierung mit maschinellem Lernen. Angenommen, ich habe einige Trainingsdaten (Bilder) und teile die Daten in Trainings- und Validierungssätze auf. Außerdem möchte ich die Daten durch zufällige Rotationen und Rauschinjektion erweitern (neue Bilder aus den Originalen erstellen). Die Erweiterung erfolgt offline. Welches ist die richtige Methode zur Datenerweiterung? …

3
Training, Testen, Validieren in einem Überlebensanalyseproblem
Ich habe hier verschiedene Themen durchgesehen, aber ich glaube nicht, dass meine genaue Frage beantwortet ist. Ich habe einen Datensatz von ~ 50.000 Studenten und deren Zeit bis zum Abbruch. Ich werde eine proportionale Hazard-Regression mit einer großen Anzahl potenzieller Kovariaten durchführen. Ich werde auch eine logistische Regression bei Studienabbrechern …

4
Was sind die Fallstudien in der gesundheitspolitischen Forschung, in denen unzuverlässige / verwirrte / ungültige Studien oder Modelle missbraucht wurden?
Ich erstelle eine Literaturübersicht zu einem aktuellen Thema der öffentlichen Gesundheit, in der die Daten verwechselt werden: Was sind übliche historische Fallstudien, die in der Aufklärung über Volksgesundheit / Epidemiologie verwendet werden, in denen ungültige oder verwechselte Beziehungen oder Schlussfolgerungen absichtlich oder fälschlicherweise in der Politik und Gesetzgebung im Bereich …



3
Was ist die Kostenfunktion in cv.glm im Boot-Paket von R?
Ich führe eine Kreuzvalidierung mit der Methode "Auslassen" durch. Ich habe eine binäre Antwort und benutze das Boot-Paket für R und die cv.glm-Funktion . Mein Problem ist, dass ich den Teil "Kosten" in dieser Funktion nicht vollständig verstehe. Nach meinem Verständnis ist dies die Funktion, die entscheidet, ob ein geschätzter …



2
AIC, BIC und GCV: Was ist am besten geeignet, um bei bestraften Regressionsmethoden eine Entscheidung zu treffen?
Mein allgemeines Verständnis ist, dass sich AIC mit dem Kompromiss zwischen der Anpassungsgüte des Modells und der Komplexität des Modells befasst. AIC=2k−2ln(L)AIC=2k−2ln(L)AIC =2k -2ln(L) kkk = Anzahl der Parameter im Modell LLL = Wahrscheinlichkeit Das Bayes'sche Informationskriterium BIC ist eng mit dem AIC verwandt. Der AIC benachteiligt die Anzahl der …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.