Soll das endgültige (serienreife) Modell mit vollständigen Daten oder nur mit einem Trainingssatz trainiert werden?

Angenommen, ich habe mehrere Modelle auf dem Trainingsset trainiert und das beste mit dem Kreuzvalidierungsset und der gemessenen Leistung auf dem Testset ausgewählt. Jetzt habe ich ein letztes bestes Modell. Sollte ich alle verfügbaren Daten oder Schiffslösungen, die nur auf dem Schulungsset trainiert wurden, erneut trainieren? Wenn letzteres, warum dann?

UPDATE: Wie @ P.Windridge feststellte, bedeutet der Versand eines umgeschulten Modells im Wesentlichen den Versand eines Modells ohne Validierung. Wir können jedoch die Leistung von Test-Sets melden und anschließend das Modell mit vollständigen Daten neu trainieren, wobei wir zu Recht erwarten, dass die Leistung besser wird - weil wir unser bestes Modell und mehr Daten verwenden. Welche Probleme können sich aus einer solchen Methodik ergeben?

machine-learning validation regression-strategies

— Yurii
quelle

Arbeiten Sie in einem extern geregelten Umfeld? (dh möglicherweise müssen Sie das validierte Modell versenden, und Ihre Frage ist nur hypothetisch, aber es lohnt sich trotzdem zu diskutieren :)). Bearbeiten: ok Ich sehe, Sie haben Ihren Beitrag bearbeitet.

— P.Windridge

Glauben Sie, dass Ihre Testdaten repräsentativ für die Bevölkerung sind / einen Teil der Bevölkerung abdecken, der nicht in der Entwicklerstichprobe enthalten ist? Ist Ihr ursprüngliches Entwicklungsmuster in irgendeiner Weise mangelhaft?

— P.Windridge

@P.windridge naja, meine frage ist nur hypothetisch. Über Ihren zweiten Kommentar Ich glaube, niemand sollte erwarten, dass ein Ingenieur ein gutes Modell ausbildet und ihm nicht repräsentative Daten liefert.

— Yurii

Ich kann mir nicht viele Situationen vorstellen, in denen Sie ein Modell ohne Validierung versenden würden. Ich würde lieber versuchen, die Größe des Testmusters zu verringern (vorausgesetzt, es ist immer noch groß genug, um es zu validieren!). Eine möglicherweise interessantere Diskussion befasst sich mit den Vor- / Nachteilen von / Auswahl / des Modells basierend auf / allen / Daten und anschließendem Training anhand einer Teilstichprobe und anschließender Validierung der übrigen Daten.

— P.Windridge

Ähnliche Frage = stats.stackexchange.com/questions/174026/… , obwohl ich denke, es könnte mehr Diskussion

— gebrauchen

Antworten:

Nach dem Umrüsten des gesamten Musters erhalten Sie fast immer ein besseres Modell. Aber wie andere gesagt haben, haben Sie keine Validierung. Dies ist ein grundlegender Fehler im Datenaufteilungsansatz. Die Aufteilung von Daten ist nicht nur eine verpasste Gelegenheit, Stichprobenunterschiede in einem Gesamtmodell direkt zu modellieren, sondern sie ist auch instabil, es sei denn, Ihre gesamte Stichprobe ist möglicherweise größer als 15.000 Probanden. Dies ist der Grund, warum 100 Wiederholungen der 10-fachen Kreuzvalidierung (abhängig von der Stichprobengröße) erforderlich sind, um Präzision und Stabilität zu erzielen, und warum der Bootstrap für eine starke interne Validierung noch besser ist. Der Bootstrap macht auch deutlich, wie schwierig und willkürlich die Auswahl der Funktionen ist.

Ich habe die Probleme mit der "externen" Validierung unter Biostatistik in der biomedizinischen Forschung in Abschnitt 10.11 ausführlicher beschrieben .

— Frank Harrell
quelle

Die Terminologie in meinem Bereich (analytische Chemie) würde jede Aufteilung der Daten, die Sie (vor) Beginn des Trainings vornehmen, als interne Validierung betrachten. Die externe Validierung würde irgendwann zwischen einer dedizierten Validierungsstudie und Ringversuchen beginnen.

— cbeleites unterstützt Monica

Sie müssen nicht erneut trainieren. Wenn Sie Ihre Ergebnisse melden, melden Sie immer Testergebnisse, da diese ein viel besseres Verständnis bieten. Anhand des Testdatensatzes können wir genauer erkennen, wie gut ein Modell mit Daten außerhalb der Stichprobe abschneidet.

— Umar
quelle

Wir können die Leistung des Test-Sets melden und danach das Modell mit vollständigen Daten neu trainieren, wobei wir zu Recht erwarten, dass die Leistung besser wird - weil wir den besten Modus plus mehr Daten verwenden. Ist meine Argumentation fehlerhaft?

— Yurii

Wenn Sie nach dem Testen mehr Daten sammeln, können Sie die Daten erneut aufteilen, erneut trainieren, dann erneut testen und dann das Testergebnis des erneuten Tests melden.

— Umar

Wenn Sie nicht die gesamte Stichprobe einschätzen, verzichten Sie auf die Möglichkeit einer höheren Effizienz. Dies ist nicht gerechtfertigt. Ich stimme auch Yuriis Kommentar oben zu.

— Richard Hardy

@RichardHardy, was ist in meinem Kommentar falsch?

— Umar

Es ist in meinem letzten Kommentar dargelegt. Indem Sie nicht alle Daten für die Schätzung des Modells verwenden, verzichten Sie auf die höchste verfügbare Effizienz. Warum das tun?

— Richard Hardy