Mir ist klar, dass diese Frage vor mehr als einem Jahr gestellt wurde, aber ich denke, eine Möglichkeit besteht darin, die Bias-Varianz-Zerlegung zu verwenden, um eine Untergrenze für die Fehlerrate zu berechnen.
Im Wesentlichen wird die Fehlerrate als die Summe von drei Termen, der Vorspannung, der Varianz und dem irreduziblen Fehler geschrieben. Eine gute Quelle zum Erlernen dieser Begriffe ist eine Einführung in das statistische Lernen .
Nehmen Sie an, dass die wahre Funktion ( ) innerhalb der Funktionsfamilie liegt, die unser Modell für maschinelles Lernen anpassen kann, und nehmen Sie die Grenze, wenn die Menge der Trainingsdaten, die wir haben, bis ins Unendliche geht. Wenn unser maschinelles Lernmodell eine endliche Anzahl von Parametern hat, sind sowohl die Vorspannung als auch die Varianz Null. Der tatsächliche Fehler ist also einfach gleich dem irreduziblen Fehler.f(x)
Nehmen wir als Beispiel an, unsere wahren Daten sind linear mit dem Gaußschen Rauschen: . Einer der optimalen Schätzer ist offensichtlich die lineare Regression, , und, wenn wir weitere Trainingsbeispiele hinzufügen, die geschätzten Koeffizienten und nähert sich bzw. . Der beste Fehler (unter der Annahme eines quadratischen Verlusts), den wir erhoffen könnten, wäre also gleich , der inhärente Fehler / das irreduzible Rauschen, der mit der Datengenerierung selbst verbunden isty∼N(a+bx,σ2)y^=a^+b^xa^b^abσ2
In der Praxis ist die Berechnung des irreduziblen Fehlers schwierig (unmöglich?), Da die Kenntnis des tatsächlichen Prozesses zur Erzeugung der Daten erforderlich ist. Diese Kritik gilt jedoch auch für den Bayes-Fehler, da dies die Kenntnis der wahren Klassenwahrscheinlichkeiten erfordert.