Ich nehme an einer Herausforderung teil, bei der ich ein Modell erstellt habe, das 70% AUC am Zugset und 70% AUC am Hold-Out-Test-Set ausführt.
Der andere Teilnehmer hat ein Modell erstellt, das 96% AUC am Zugset und 76% AUC am Hold-Out-Testset ausführt.
Meiner Meinung nach ist mein Modell besser, weil es auf einem Hold-Out-Set die gleiche Leistung erbringt.
F: Ist es gültig zu argumentieren, dass seine 76% bei einem Testsatz nur ein Zufall sind und dass sein Modell bei einem anderen Testsatz schlechter abschneiden könnte?