Warum wird die Holdout-Methode (Aufteilen von Daten in Training und Test) in der klassischen Statistik nicht verwendet?


12

In meinem Unterricht wurde die Holdout-Methode eingeführt, um die Modellleistung zu bewerten. Als ich meinen ersten Kurs über lineare Modelle belegte, wurde dies jedoch nicht als Mittel zur Modellvalidierung oder -bewertung eingeführt. Meine Online-Recherche zeigt auch keinerlei Schnittmenge. Warum wird die Holdout-Methode in der klassischen Statistik nicht verwendet?

Antworten:


22

Eine produktivere Frage könnte sein: "Warum wurde es nicht in der klassischen Statistik verwendet, die ich gelernt habe?"

Abhängig von den Niveaus, auf denen es unterrichtet wurde, kann der Kursinhalt (und die verfügbare Zeit) dieser Wahl auf einer Kombination verschiedener Faktoren beruhen. Oft werden wichtige Themen außer Acht gelassen, weil aus dem einen oder anderen Grund anderes Material vermittelt werden muss, in der Hoffnung, dass sie in späteren Fächern behandelt werden.

Zumindest in gewisser Hinsicht wird der Begriff seit langem von einer Vielzahl von Menschen verwendet. Es war in einigen Bereichen häufiger als in anderen. Viele statistische Verwendungen haben keine Vorhersage oder Modellauswahl als Hauptkomponente (oder in einigen Fällen sogar überhaupt), und in diesem Fall ist die Verwendung von Holdout-Stichproben möglicherweise weniger kritisch als wenn Vorhersage der Hauptpunkt ist. Möglicherweise hätte es früher in einigen relevanten Anwendungen eine größere Verbreitung finden müssen, als dies der Fall war, aber das ist nicht dasselbe wie Unbekannt.

Wenn Sie sich Bereiche ansehen, die sich auf Vorhersagen konzentrieren, war der Begriff der Modellbewertung durch Vorhersagen von Daten, die Sie nicht für die Schätzung Ihres Modells verwendet haben, sicherlich weit verbreitet (wenn auch nicht universell). Ich habe es sicherlich mit der Zeitreihenmodellierung gemacht, die ich zum Beispiel in den 1980er Jahren gemacht habe, als die prädiktive Leistung der neuesten Daten außerhalb der Stichprobe von besonderer Bedeutung war.

Der Gedanke, zumindest einige Daten auszulassen, wurde beispielsweise in der Regression (gelöschte Residuen, PRESS, das Jacknife usw.) und in der Ausreißeranalyse verwendet.

Einige dieser Ideen stammen noch viel früher. Stone (1974) [1] verweist auf Arbeiten zur Kreuzvalidierung (mit dem Wort im Titel) aus den 1950er und 60er Jahren. Vielleicht noch näher an Ihrer Absicht erwähnt er die Verwendung der Begriffe "Konstruktionsmuster" und "Validierungsmuster" durch Simon (1971) - weist jedoch auch darauf hin, dass "Larson (1931) eine zufällige Aufteilung des Musters in ein pädagogisches Vielfaches verwendet hat -Regressionsstudie ".

Themen wie Kreuzvalidierung und die Verwendung von Statistiken auf der Grundlage von Vorhersagen usw. wurden in der Statistikliteratur zum Beispiel in den 70er und 80er Jahren immer häufiger, aber viele der grundlegenden Ideen gab es schon seit geraumer Zeit dann.

[1]: Stone, M. (1974),
"Cross-Validatory Choice and Assessment of Statistical Predictions",
Zeitschrift der Royal Statistical Society. Series B (Methodological) , Vol. 36, Nr. 2, S. 111-147


Nur zur Veranschaulichung, M. Stone ist nicht ich, noch ist er mit mir verwandt, außer möglicherweise durch Adam und Eva.
Mark L. Stone

11

Um die Antwort von Glen_b zu ergänzen, lag der Schwerpunkt der klassischen Statistik häufig auf einer optimalen Nutzung der Daten, optimalen Tests, optimalen Schätzern, ausreichenden Daten usw. In diesem theoretischen Rahmen ist es schwierig, die Nichtverwendung eines Teils der Informationen zu rechtfertigen ! Ein Teil dieser Tradition ist die Betonung von Situationen mit kleinen Stichproben, in denen das Durchhalten praktisch schwierig ist.

Fisher arbeitete zum Beispiel hauptsächlich mit Genetik und landwirtschaftlichen Experimenten, und auf diesen Gebieten war eine geringe Anzahl von Beobachtungen die Regel. So war er vor allem solchen Problemen mit kleinen Datenmengen ausgesetzt.


6

Ich werde aus einem angewandten Gebiet antworten, das vielleicht zwischen klassischer Statistik und maschinellem Lernen liegt: der Chemometrie, dh der Statistik für chemische Analysen. Ich füge zwei verschiedene Szenarien hinzu, in denen das Durchhalten nicht so wichtig ist wie in typischen maschinellen Lernkursen.


Szenario 1:

Ich denke, ein entscheidender Punkt hierbei ist zu erkennen, dass es einen grundlegenden Unterschied zwischen der kleinen Stichprobengröße für das Training und dem Testen gibt:

  • Für das Training ist in der Regel das Verhältnis der Anzahl der Fälle zur Komplexität des Modells (Anzahl der Parameter) von Bedeutung (Freiheitsgrade).
  • Für das Testen ist die absolute Anzahl der Testfälle von Bedeutung.
    (Die Qualität des Testverfahrens muss vom Modell unabhängig sein: Dies wird durch Validierung mit unabhängigen Testfällen als Black Box behandelt.)

Der zweite Punkt, den ich für meine Argumentation benötigen werde, ist, dass die Situation, in der unabhängige Testfälle entscheidend sind, überpassend ist. Wenn das Modell nicht komplex genug ist (BiasVarianz, also unter Anpassung) können Residuen ebenso viel über den gesamten Vorhersagefehler aussagen wie unabhängige Fälle.

In Vorlesungen zur Statistik über "klassische" lineare Modelle werden univariate Modelle häufig stark betont. Für ein univariates lineares Modell ist die Trainingsstichprobengröße wahrscheinlich nicht klein: Die Trainingsstichprobengrößen werden normalerweise im Vergleich zur Modellkomplexität beurteilt, und das lineare Modell hat nur zwei Parameter, Offset und Steigung. In der analytischen Chemie haben wir tatsächlich eine Norm, die besagt, dass Sie mindestens 10 Kalibrierungsproben für Ihre univariate lineare Kalibrierung haben sollten. Dies stellt eine Situation sicher, in der die Instabilität des Modells zuverlässig kein Problem darstellt, sodass keine Unterbrechung erforderlich ist.

Sowohl beim maschinellen Lernen als auch bei modernen Mehrkanaldetektoren für die chemische Analyse (manchmal 10⁴ "Kanäle", z. B. in der Massenspektrometrie) ist die Modellstabilität (dh Varianz) ein wichtiges Thema. Daher ist eine Unterbrechung oder eine bessere Neuabtastung erforderlich.


Szenario 2:

Eine völlig andere Situation ist, dass die Wartezeit zugunsten einer Kombination aus einer einfacheren (Residuen) und einer ausgefeilteren Leistungsmessung übersprungen werden kann. Beachten Sie, dass ein Durchhalten im Sinne eines (zufälligen) Ausschlusses eines Teils eines Datensatzes vom Training nicht dem entspricht, was unabhängige Tests erreichen können. In der analytischen Chemie können spezielle Validierungsexperimente durchgeführt werden, die z. B. die Messung der Leistungsverschlechterung über die Zeit (Instrumentendrift) umfassen, die nicht durch Halten gemessen werden kann, und z. B. die Leistung des Sensors in der tatsächlichen industriellen Umgebung (während der Sensorkalibrierung) bestimmen wurde im Labor an Kalibrierproben durchgeführt). Siehe auch /stats//a/104750/4598 Weitere Informationen zu unabhängigen Tests im Vergleich zu Hold-Out.


Oben in Szenario 1, glaube ich, wollten Sie sagen (Voreingenommenheit << Varianz)? Bitte korrigieren!
kjetil b halvorsen

1
@kjetilbhalvorsen nein, da sie in diesem Absatz auf eine Unteranpassung hinweist (Modell, das nicht komplex genug ist).
Marc Claesen

@kjetilbhalvorsen; Marc Claesen hat recht, ich habe betont, dass dies für Situationen gilt, in denen Sie sicher sein können, dass das Problem nicht richtig ist.
cbeleites unterstützt Monica am

IN ORDNUNG. einige Briefe zur Befriedigung req
kjetil b halvorsen
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.