Angenommen, ich habe zwei Lernmethoden für ein Klassifizierungsproblem , und , und ich schätze ihre Generalisierungsleistung mit etwas wie wiederholter Kreuzvalidierung oder Bootstrapping. Durch diesen Prozess erhalte ich eine Verteilung der Bewertungen und für jede Methode über diese Wiederholungen (z. B. die Verteilung der ROC-AUC-Werte für jedes Modell).
Wenn man sich diese Verteilungen , könnte es sein, dass aber dass (dh die erwartete Generalisierungsleistung von ist höher als , aber dass es mehr Unsicherheit über diese Schätzung gibt).
Ich denke, dies wird als Bias-Varianz-Dilemma in der Regression bezeichnet.
Welche mathematischen Methoden kann ich verwenden, um und zu vergleichen und schließlich eine fundierte Entscheidung darüber zu treffen, welches Modell verwendet werden soll?
Hinweis: Der Einfachheit halber beziehe ich mich hier auf zwei Methoden und , aber ich interessiere mich für Methoden, mit denen die Verteilung der Punktzahlen von ~ 1000 Lernmethoden (z. B. aus einer Rastersuche) verglichen und schließlich erstellt werden kann eine endgültige Entscheidung darüber, welches Modell verwendet werden soll.