Kurze Antwort: Bei beiden Validierungstechniken werden verschiedene Modelle trainiert und getestet.
Lange Antwort, wie es am besten geht: Das hängt natürlich davon ab. Aber hier ein paar Gedanken, die ich verwende, um meine Entscheidungen zur Validierung von Resamples zu leiten. Ich bin Chemometriker, daher hängen diese Strategien und auch die Begriffe mehr oder weniger eng mit analytisch-chemischen Problemen zusammen.
Um meine Gedanken ein wenig zu erklären, denke ich an Validierung als Messung der Modellqualität und an Training als Messung Modellparameter - dies führt zu einer recht starken Analogie zu jeder anderen Art von Messung.
In Bezug auf die Validierung gibt es zwei verschiedene Sichtweisen auf diese Ansätze:
Ein traditioneller Gesichtspunkt für die Validierung von Neuabtastungen ist: Der neu abgetastete Datensatz (manchmal als Ersatzdatensatz oder Teilsatz bezeichnet) ist praktisch derselbe wie der ursprüngliche (reale) Datensatz.
Daher ist ein "Ersatzmodell", das an den Ersatzdatensatz angepasst wird, praktisch dasselbe wie das Modell, das an den gesamten realen Datensatz angepasst wird. Einige Stichproben bleiben jedoch im Ersatzdatensatz unberücksichtigt, das Modell ist davon unabhängig. Daher nehme ich diese ausgelassenen oder nicht im Bootstrap enthaltenen Stichproben als unabhängigen Validierungssatz für das Ersatzmodell und verwende das Ergebnis als Annäherung an das Gesamtdatenmodell.
Das Ersatzmodell ist jedoch oft nicht wirklich mit dem Gesamtdatenmodell identisch: Es wurden weniger Stichproben für das Training verwendet (selbst für das Bootstrap ist die Anzahl der verschiedenen Stichproben geringer). Solange sich die Lernkurve erhöht, ist das Ersatzmodell im Durchschnitt etwas schlechter als das Gesamtdatenmodell. Dies ist die bekannte pessimistische Tendenz bei der Validierung von Neuabtastungen (wenn Sie eine optimistische Tendenz feststellen, ist dies normalerweise ein Indikator dafür, dass der ausgelassene Testsatz nicht unabhängig vom Modell war).
Der zweite Gesichtspunkt ist, dass der neu abgetastete Datensatz eine gestörte Version des gesamten Datensatzes ist. Wenn Sie untersuchen, inwiefern sich die Ersatzmodelle (oder ihre Vorhersagen für die ausgelassenen Stichproben) vom Gesamtdatenmodell unterscheiden, können Sie etwas über die Modellstabilität in Bezug auf die Trainingsdaten aussagen.
Aus dieser Perspektive sind die Ersatzmodelle so etwas wie wiederholte Messungen. Sagen Sie, Ihre Aufgabe ist es, den Gehalt an Mineralien eines ganzen Erzzugs zu messen. Das Erz ist nicht homogen. Sie nehmen also physische Proben von verschiedenen Orten und sehen sich dann den Gesamtinhalt und seine Variation im Zug an. Wenn Sie der Meinung sind, dass Ihr Modell möglicherweise nicht stabil ist, können Sie sich auch die Gesamtleistung und die Variation der Ersatzmodelle ansehen.
n
Normalerweise nehme ich Fälle neu auf, zB ein Fall = alle Messungen eines Patienten. Das Out-of-Bag sind dann alle Patienten, bei denen in den Trainingsdaten keine Messungen auftreten. Dies ist nützlich, wenn Sie wissen, dass die Messungen eines Falls einander ähnlicher sind als die Messungen anderer Fälle (oder Sie können diese Möglichkeit zumindest nicht ausschließen).
Nicht dass die Validierung der Neuabtastung es Ihnen ermöglicht, die Leistung für unbekannte Proben zu messen . Wenn Sie zusätzlich die Leistung für unbekannte zukünftige Proben messen möchten (instrumentelle Drift!), Benötigen Sie ein Test-Set, das "in der Zukunft" gemessen wird, dh eine bestimmte Zeit, nachdem alle Trainingsproben gemessen wurden. In der analytischen Chemie wird dies benötigt, zB wenn Sie herausfinden möchten, wie oft Sie die Kalibrierung Ihres Instruments wiederholen müssen (für jede Bestimmung, täglich, wöchentlich, monatlich, ...).
Bootstrap vs. Cross Validation Terminologie :
- Resampling mit Ersatz wird oft als Bootstrap bezeichnet.
- Resampling ohne erneute Gegenprüfung.
Beide können eine Art Schichtung haben. In der Vergangenheit wurde die Aufteilung für die Kreuzvalidierung (zumindest in der Chemometrie) häufig nicht zufällig vorgenommen, z. B. eine dreifache Kreuzvalidierung der Form abcabc..abc (Datensatz sortiert nach dem Ergebnis) für die Kalibrierung / Regression, wenn Sie nur wenige Fälle (physische Proben) haben und sicherstellen möchten, dass Ihr gesamter Datenbereich abgedeckt ist.
Beide Techniken werden in der Regel mehrmals wiederholt / iteriert. Wiederum aus historischen Gründen und zumindest in der Chemometrie bedeutet die k-fache Kreuzvalidierung häufig das Trainieren und Testen von k-Modellen (jeweils mit dem 1 / k-ten der Daten, die nicht am Training beteiligt waren). Wenn eine solche zufällige Aufteilung wiederholt wird, wird sie als iterierte oder wiederholte Kreuzvalidierung bezeichnet.
kknnn
- Beachten Sie, dass der Bootstrap für einige Modellanpassungstechniken nicht geeignet ist, bei denen zuerst doppelte Messungen entfernt werden.
- Es gibt einige Varianten des Bootstraps, z. B. .632-Bootstrap und .632 + -bootstrap
kk fache Kreuzvalidierung.