Warum verwenden Forscher die 10-fache Kreuzvalidierung, anstatt einen Validierungssatz zu testen?

23

Ich habe viele Forschungsarbeiten über Stimmungsklassifikation und verwandte Themen gelesen.

Die meisten von ihnen verwenden eine 10-fache Kreuzvalidierung, um Klassifikatoren zu trainieren und zu testen. Das bedeutet, dass keine separaten Tests / Validierungen durchgeführt werden. Warum das?

Was sind die Vor- und Nachteile dieses Ansatzes, insbesondere für Forscher?

classification cross-validation

— user18075
quelle

3

Sind Sie sicher, dass keine separaten Tests durchgeführt wurden?

— Douglas Zare

17

Dies ist kein Problem, wenn der Lebenslauf verschachtelt ist , dh alle Optimierungen, Featureauswahlen und Modellauswahlen, unabhängig davon, ob sie selbst den Lebenslauf verwenden oder nicht, werden in einem großen Lebenslauf zusammengefasst.

Wie verhält es sich mit einem zusätzlichen Validierungssatz? Während der Validierungssatz normalerweise nur ein mehr oder weniger zufällig ausgewählter Teil der gesamten Daten ist, entspricht er einfach einer Iteration des Lebenslaufs. Zu diesem Zweck ist es tatsächlich eine schlechtere Methode, da sie leicht durch (hoffentlich) glücklicherweise / unglücklicherweise ausgewählte oder von Kirschen gepflückte Validierungssätze verzerrt werden kann.

Die einzige Ausnahme bilden Zeitreihen und andere Daten, bei denen die Objektreihenfolge eine Rolle spielt. Sie bedürfen jedoch einer besonderen Behandlung.

— Gala
quelle

16

Der Hauptgrund ist, dass der k-fache Kreuzvalidierungsschätzer eine geringere Varianz aufweist als ein einzelner Hold-Out-Set-Schätzer. Dies kann sehr wichtig sein, wenn die Menge der verfügbaren Daten begrenzt ist. Wenn Sie einen einzelnen Hold-Out-Satz haben, bei dem 90% der Daten für das Training und 10% für das Testen verwendet werden, ist der Testsatz sehr klein, sodass die Leistungsschätzung für verschiedene Datenproben sehr unterschiedlich ausfällt. oder für verschiedene Partitionen der Daten, um Trainings- und Testsätze zu bilden. Durch die k-fache Validierung wird diese Varianz durch Mitteln über k verschiedene Partitionen reduziert, sodass die Leistungsschätzung weniger empfindlich auf die Partitionierung der Daten reagiert. Sie können durch wiederholte k-fache Kreuzvalidierung noch weiter gehen, wobei die Kreuzvalidierung unter Verwendung verschiedener Partitionierungen der Daten durchgeführt wird, um k Teilmengen zu bilden.

Es ist jedoch zu beachten, dass alle Schritte des Modellanpassungsverfahrens (Modellauswahl, Merkmalsauswahl usw.) unabhängig voneinander in jeder Falte des Kreuzvalidierungsverfahrens ausgeführt werden müssen, da sonst die resultierende Leistungsschätzung optimistisch verzerrt wird.

— Dikran Beuteltier
quelle

9

[BEARBEITET im Lichte des Kommentars]

Ich denke, es gibt ein Problem, wenn Sie CV-Ergebnisse verwenden, um zwischen mehreren Modellen zu wählen.

Mit CV können Sie den gesamten Datensatz verwenden, um ein Modell / eine Methode zu trainieren und zu testen, und gleichzeitig eine vernünftige Vorstellung davon haben, wie gut sich das verallgemeinern lässt. Wenn Sie jedoch mehrere Modelle vergleichen, ist mein Instinkt, dass der Modellvergleich die zusätzliche Isolationsstufe für die Zugversuche in Anspruch nimmt, die Ihnen der Lebenslauf bietet, sodass das Endergebnis keine vernünftige Schätzung der Genauigkeit des ausgewählten Modells darstellt.

Wenn Sie also mehrere Modelle erstellen und eines anhand des Lebenslaufs auswählen, sind Sie zu optimistisch in Bezug auf das, was Sie gefunden haben. Ein weiterer Validierungssatz wäre erforderlich, um zu sehen, wie gut der Gewinner generalisiert.

— Wayne
quelle

Vielen Dank. Korrekt. Aber meine Frage war vor allem, warum es bei Forschungsarbeiten an einer endgültigen Validierung mangelt? Gibt es einen richtigen Grund? Geht es um weniger Daten oder weil der Lebenslauf gute Arbeit leistet und keine separate Validierung erforderlich ist?

— user18075

5

Der Ansatz der Datenaufteilung ist sehr ineffizient. Bis sowohl Trainings- als auch Testsätze enorm sind, ist der mittlere quadratische Fehler für eine Schätzung der wahrscheinlichen zukünftigen Leistung für ein Vorhersagemodell beim Bootstrapping oder bei 100 Wiederholungen der 10-fachen Kreuzvalidierung kleiner, vorausgesetzt, die Resampling-Prozeduren hatten Zugriff auf alle Modellierungsschritte das involviert

Y

$Y$ . Verwenden Sie die Datenaufteilung, wenn Sie auch den Messprozess, das Vermessungsinstrument oder andere Verfahren in Bezug auf die Bedeutung der Daten validieren müssen. Eine gute Verwendung der Datenaufteilung ist, wenn die Instrumentierung von Land zu Land unterschiedlich ist.

— Frank Harrell

7

Nach meiner Erfahrung liegt der Hauptgrund normalerweise darin, dass Sie nicht genügend Proben haben.
In meinem Bereich (Klassifizierung von biologischen / medizinischen Proben) wird manchmal ein Test-Set getrennt gehalten, aber oft umfasst es nur wenige Fälle. In diesem Fall sind die Konfidenzintervalle normalerweise zu groß, um von Nutzen zu sein.
Ein weiterer Vorteil der wiederholten / iterierten Kreuzvalidierung oder der Validierung außerhalb des Bootstraps besteht darin, dass Sie eine Reihe von "Ersatzmodellen" erstellen. Diese werden als gleich angenommen. Ist dies nicht der Fall, sind die Modi instabil. Sie können diese Instabilität tatsächlich messen (in Bezug auf den Austausch einiger Trainingsfälle), indem Sie entweder die Ersatzmodelle selbst oder die Vorhersagen vergleichen, die verschiedene Ersatzmodelle für denselben Fall treffen.
Dieses Papier von Esbensen & Geladi einige Einschränkungen der Kreuzvalidierung erörtert.
Sie können sich um die meisten kümmern, aber ein wichtiger Punkt, der durch die Validierung des Resamplings nicht angegangen werden kann, ist die Drift, die mit dem Punkt von mbq zusammenhängt:

Die einzige Ausnahme bilden Zeitreihen und andere Daten, bei denen es auf die Objektreihenfolge ankommt

Drift bedeutet, dass sich z. B. das Ansprechverhalten / die tatsächliche Kalibrierung eines Instruments mit der Zeit langsam ändert. Daher ist der Generalisierungsfehler für unbekannte Fälle möglicherweise nicht der gleiche wie für unbekannte zukünftige Fälle. Sie gelangen zu Anweisungen wie "Kalibrierung täglich / wöchentlich wiederholen / ...", wenn Sie während der Validierung eine Abweichung feststellen, die jedoch Testsätze erfordert, die systematisch später als die Trainingsdaten erfasst werden.
(Sie können "spezielle" Aufteilungen durchführen, die die Erfassungszeit berücksichtigen, wenn Ihr Experiment korrekt geplant ist. In der Regel wird jedoch nicht so viel Zeit benötigt, wie Sie für die Drifterkennung testen möchten.)

— cbeleites unterstützt Monica
quelle