Ich danke Aryeh , dass er mich auf diese Frage aufmerksam gemacht hat.
Wie andere erwähnt haben, lautet die Antwort auf (1) Ja , und die einfache Methode der empirischen Risikominimierung in C. erreicht die Komplexität der O ( ( d/ ε)log( 1 / ε ) ) -Stichprobe (siehe Vapnik und Chervonenkis, 1974; Blumer, Ehrenfeucht, Haussler und Warmuth, 1989).
Was (2) betrifft, so ist tatsächlich bekannt, dass es Räume C.
denen kein geeigneter Lernalgorithmus eine bessere als die Probenkomplexität von Ω ( ( d/ ε)log( 1 / ε ) ) erreicht und daher das richtige Lernen nicht das optimale O ( d/ ε) Probenkomplexität. Meines Wissens wurde diese Tatsache nie veröffentlicht, sondern basiert auf einem verwandten Argument von Daniely und Shalev-Shwartz (COLT 2014) (ursprünglich formuliert für eine andere, aber verwandte Frage beim Lernen in mehreren Klassen).
Betrachten Sie den einfachen Fall d= 1 und setzen Sie den Raum X. als { 1 , 2 , . . . , 1 / ε } und C. sind Singletons fz( x ) : = I [ x = z] , z∈ X. : Das heißt, jeder Klassifikator in C. klassifiziert genau einen Punkt von X. als 1 und die anderen als 0. Für die untere Grenze, die Zielfunktion als Zufall Singletons nehmen fx∗ , wobei x∗∼Uniform(X) und P , die Randverteilung von X , ist einheitlich auf X∖{x∗} . Jetzt sieht der Lernende keine Beispiele mit der Bezeichnung 1 , sondern muss einen Punkt z auswählen, um zu erraten , dass er mit 1 (wichtig ist, dass die Funktion "Alle Nullen" nicht in C, So dass jeder richtigen Lerner muss etwas erraten , z ), und bis er jeden Punkt in gesehen hat X∖{x∗} es mindestens 1/2 Wahrscheinlichkeit des falschen erraten ( das heißt die posteriore Wahrscheinlichkeit seines fz mit z≠x∗ mindestens 1/2 ). Das Coupon-Collector-Argument impliziert, dass Ω ( ( 1 / ε ) log ( 1 / ε ) ) erforderlich wäre.Ω((1/ε)log(1/ε))Beispiele, um jeden Punkt in X∖{x∗} . Dies beweist also eine Untergrenze von Ω((1/ε)log(1/ε)) für alle richtigen Lernenden.
Für allgemeines d>1 nehmen wir X als {1,2,...,d/(4ε)} , nimm C als Klassifikatoren IA für Mengen A⊂X der Größe genau d , wähle die Zielfunktion zufällig aus C und nimm P erneut als einheitlich nur für die Punkte, die die Zielfunktion 0 klassifiziert ( Daher sieht der Lernende niemals einen Punkt mit der Bezeichnung 1). Dann impliziert eine Verallgemeinerung des Coupon-Collector-Arguments, dass wir Ω((d/ε)log(1/ε)) Samples benötigen , um mindestens |X|−2d verschiedene Punkte von X , und ohne dass dies viele verschiedenen Punkten jeder richtiger Lernenden hat zumindest zu Sehen 1/3 Glück größer immer als d/4 seinen guess A von d Punkten falsch in der gewählten Hypothese hAwas bedeutet, dass seine Fehlerrate größer als ε . In diesem Fall gibt es also keinen richtigen Lernenden mit einer Probenkomplexität von weniger als Ω((d/ε)log(1/ε)) , was bedeutet, dass kein richtiger Lernender die optimale Probenkomplexität O(d/ε) .
Beachten Sie, dass das Ergebnis sehr spezifisch für den konstruierten Raum C . Es gibt Räume C denen richtige Lernende die O(d/ε) -optimale Stichprobenkomplexität erreichen können, und tatsächlich sogar den exakten vollständigen Ausdruck O((d/ε)+(1/ε)log(1/δ)) aus ( Hanneke, 2016a). In (Hanneke, 2016b) wurden einige Ober- und Untergrenzen für allgemeine ERM-Lernende entwickelt, die anhand der Eigenschaften des Raums C quantifiziert wurdenCsowie einige speziellere Fälle zu diskutieren, in denen bestimmte richtige Lernende manchmal die optimale Komplexität der Stichprobe erreichen können.
Verweise:
Vapnik und Chervonenkis (1974). Theorie der Mustererkennung. Nauka, Moskau, 1974.
Blumer, Ehrenfeucht, Haussler und Warmuth (1989). Lernfähigkeit und die Vapnik-Chervonenkis-Dimension. Zeitschrift der Association for Computing Machinery, 36 (4): 929–965.
Daniely und Shalev-Shwartz (2014). Optimale Lerner für Probleme mit mehreren Klassen. In Proceedings der 27. Konferenz über Lerntheorie.
Hanneke (2016a). Die optimale Stichprobenkomplexität des PAC-Lernens. Journal of Machine Learning Research. 17 (38), S. 1-15.
Hanneke (2016b). Verfeinerte Fehlergrenzen für mehrere Lernalgorithmen. Journal of Machine Learning Research. 17 (135), S. 1-55.