Ist das Modell mit höherer AUC am Testmuster besser als das nicht überpasste


7

Ich nehme an einer Herausforderung teil, bei der ich ein Modell erstellt habe, das 70% AUC am Zugset und 70% AUC am Hold-Out-Test-Set ausführt.
Der andere Teilnehmer hat ein Modell erstellt, das 96% AUC am Zugset und 76% AUC am Hold-Out-Testset ausführt.

Meiner Meinung nach ist mein Modell besser, weil es auf einem Hold-Out-Set die gleiche Leistung erbringt.
F: Ist es gültig zu argumentieren, dass seine 76% bei einem Testsatz nur ein Zufall sind und dass sein Modell bei einem anderen Testsatz schlechter abschneiden könnte?


Wie würden Sie argumentieren, dass nur sein Ergebnis zufällig erzielt werden könnte, nicht Ihr Ergebnis?
Firebug

Ich hatte die gleiche Leistung in Zugset, Testset und Hold-Out-Set. Er hatte 96% im Zugset, ich weiß nicht, was seine Leistung im Testset war, und er hatte 76% im Holdout-Set. Für mich sieht es so aus, als ob mein Modell stabile Ergebnisse liefert, während sein Modell überaus am Zugsatz angepasst ist, und ich bin mir nicht sicher, ob sein Modell bei einer neuen Probe die gleichen 76% produzieren würde.
MiksL

Antworten:


6

Dies hängt davon ab, wie Ihre Trainings- und Testsätze zusammengesetzt sind.

Wenn der Testsatz ziemlich groß ist und die Datenvielfalt im "Anwendungsfall" korrekt widerspiegelt, würde ich nicht so argumentieren. Wenn die Testdaten jedoch eher klein sind, können Sie natürlich zufällig gute oder schlechte Ergebnisse erzielen. In solchen Fällen wäre es hilfreich, mehr Testdaten zu verwenden (oder - wenn möglich - einen größeren Teil der insgesamt verfügbaren Daten zu verwenden).

Darüber hinaus sollten die Trainingsergebnisse mithilfe einer inneren Partitionierung (z. B. wiederholte Kreuzvalidierung) erzielt werden, bei der Daten getestet werden, die das Modell zuvor noch nicht gesehen hat. Die auf diese Ergebnisse verteilte Leistung und Leistung zeigt Ihnen, wie Ihr Modell normalerweise funktioniert und wie wahrscheinlich es ist, nur bessere oder schlechtere Ergebnisse zu erzielen. Mit einem solchen Verfahren würde ich keine Testergebnisse, die besser als Ihre Lebenslaufergebnisse sind, als realistisch betrachten. Sie sollten sich wahrscheinlich auch die CV-Leistung und die Leistungsverteilung beider Modelle ansehen und vergleichen.

Und: Denken Sie daran, dass Ihre Trainingsergebnisse möglicherweise immer noch deutlich besser sind als Ihre Testergebnisse und tatsächlichen Anwendungsfallergebnisse, wenn Ihre Trainingsdaten im Vergleich zu Ihren Testdaten eher klein sind.


3

Wenn der Fokus ausschließlich auf der Vorhersagegenauigkeit liegt, ist das überangepasste Modell höchstwahrscheinlich besser. Nehmen Sie zB einen zufälligen Wald: Auf dem Trainingsdatensatz passt er konstruktionsbedingt extrem über. Dennoch sind die Ergebnisse des Testdatensatzes oft recht vernünftig (und die Testleistung liegt nahe an der angegebenen Out-of-Bag-Leistung).

Dies funktioniert nur, wenn der Testdatensatz "reale Fälle" widerspiegelt und die Annahmen der zugrunde liegenden Modelle angemessen erfüllt sind.


Der Fokus liegt darauf zu verstehen, welches Modell in Zukunft eine bessere Leistung erbringen würde, wenn es in einen Produktionsmodus versetzt würde.
MiksL

0

Es ist durchaus möglich (und in bestimmten Situationen), dass auch das Test-Set überpasst wird. Richtig angepasste Modelle sollten sowohl für die Trainings- als auch für die Testdatensätze eine ungefähr ähnliche kreuzvalidierte Leistung erzielen. Best Practices wären, auch einen anderen Teil des Datensatzes anzuhalten, der nur einmal verwendet wird: um die Leistung des Modells anhand von Daten zu bewerten, die es überhaupt nicht gesehen hat.

Wenn Sie den Testsatz verwenden, um das Modell iterativ zu erstellen, z. B. indem Sie eine Funktion hinzufügen und dann sehen, wie sie auf dem Testsatz validiert wird, geben Sie dem Modell Informationen zum Testsatz. Insbesondere werden Ihre Ergebnisse für den Testsatz höher eingestellt (dh Sie passen zu viel), wenn Sie das Modell basierend auf der Leistung des Testsatzes optimieren.


3
(-1) Entschuldigung, ich stimme dem nicht zu. "Richtig angepasste Modelle sollten eine ungefähr ähnliche kreuzvalidierte Leistung sowohl im Trainings- als auch im Testdatensatz erzielen." Zufällige Wälder erzielen routinemäßig perfekte Ergebnisse bei Zugdaten. Wollen Sie beispielsweise sagen, dass sie nicht richtig passen?
Firebug
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.