Während ich den Begriff konzeptionell verstehe, habe ich Schwierigkeiten, ihn operativ zu verstehen. Könnte mir jemand mit einem Beispiel helfen?
Während ich den Begriff konzeptionell verstehe, habe ich Schwierigkeiten, ihn operativ zu verstehen. Könnte mir jemand mit einem Beispiel helfen?
Antworten:
Nehmen wir an, Sie haben eine unbekannte Zielfunktion , die Sie durch Lernen erfassen möchten . Um die Zielfunktion zu erfassen Sie mit einigen Hypothesen zu kommen haben wo . Hier ist Ihr Hypothesenraum oder Ihre Menge.
Weitere Informationen finden Sie in den Präsentationsfolien von Abu-Mostafa: https://work.caltech.edu/textbook.html
h
lernt, Zielfunktion zu erfassen f
. H
ist der Raum, in dem h1, h2, .. hn definiert wurde.
Angenommen, ein Beispiel mit vier binären Merkmalen und einer binären Ausgangsvariablen. Nachfolgend finden Sie eine Reihe von Beobachtungen:
x1 x2 x3 x4 | y
---------------
0 0 0 1 | 0
0 1 0 1 | 0
1 1 0 0 | 1
0 0 1 0 | 1
Dieser Satz von Beobachtungen kann von einem Algorithmus für maschinelles Lernen (ML) verwendet werden , um eine Funktion zu lernen f
, die einen Wert y
für jede Eingabe aus dem Eingaberaum vorhersagen kann .
Wir suchen nach der Grundwahrheit f(x) = y
, die die Beziehung zwischen x
und y
für alle möglichen Eingaben auf die richtige Weise erklärt.
Die Funktion f
muss aus dem Hypothesenraum ausgewählt werden .
Um eine bessere Vorstellung zu bekommen: Der Eingaberaum ist im oben angegebenen Beispiel die Anzahl der möglichen Eingaben. Der Hypothesenraum istdenn für jeden Satz von Merkmalen des Eingaberaums sind zwei Ergebnisse ( 0
und 1
) möglich.
Der ML-Algorithmus hilft uns, eine Funktion , manchmal auch als Hypothese bezeichnet, aus dem relativ großen Hypothesenraum zu finden.
Verweise
Der Hypothesenraum ist für das Thema des sogenannten Bias-Varianz-Kompromisses mit maximaler Wahrscheinlichkeit sehr relevant. Wenn die Anzahl der Parameter im Modell (Hypothesenfunktion) zu klein ist, als dass das Modell zu den Daten passen könnte (was auf eine Unteranpassung hinweist und der Hypothesenraum zu begrenzt ist), ist die Verzerrung hoch. Wenn das von Ihnen ausgewählte Modell zu viele Parameter enthält, als für die Anpassung der Daten erforderlich sind, ist die Varianz hoch (was auf eine Überanpassung hinweist und der Hypothesenraum zu aussagekräftig ist).
Wie in der Antwort von So S angegeben , können wir, wenn die Parameter diskret sind, leicht und konkret berechnen, wie viele Möglichkeiten sich im Hypothesenraum befinden (oder wie groß er ist), aber normalerweise sind die Parameter unter realen Lebensumständen kontinuierlich. Daher ist der Hypothesenraum im Allgemeinen unzählig.
Hier ist ein Beispiel, das ich aus dem verwandten Teil des klassischen Lehrbuchs für maschinelles Lernen ausgeliehen und modifiziert habe: Mustererkennung und maschinelles Lernen , um dieser Frage gerecht zu werden:
Wir wählen eine Hypothesenfunktion für eine unbekannte Funktion aus, die sich in den Trainingsdaten einer dritten Person namens CoolGuy verbirgt, die auf einem extragalaktischen Planeten lebt. Angenommen, CoolGuy weiß, was die Funktion ist, da die Datenfälle von ihm bereitgestellt werden und er die Daten nur mithilfe der Funktion generiert hat. Nennen wir es (wir haben nur die begrenzten Daten und CoolGuy hat sowohl die unbegrenzten Daten als auch die Funktion, die sie erzeugt) die Grundwahrheitsfunktion und bezeichnen sie mit.
Die grüne Kurve ist die und die kleinen blauen Kreise sind die Fälle, die wir haben (sie sind eigentlich nicht die wahren Datenfälle, die von CoolGuy übertragen werden, da sie durch Übertragungsgeräusche, beispielsweise durch Makula oder andere Dinge, kontaminiert wären).
Wir dachten, dass diese versteckte Funktion sehr einfach wäre, dann versuchen wir ein lineares Modell (stellen Sie eine Hypothese mit einem sehr begrenzten Raum auf): mit nur zwei Parametern: und und wir trainieren das Modell unter Verwendung unserer Daten und erhalten diese:
Wir können sehen, dass unabhängig davon, wie viele Daten wir für die Hypothese verwenden, diese einfach nicht funktionieren, weil sie nicht aussagekräftig genug sind.
Wir versuchen also eine viel aussagekräftigere Hypothese: mit zehn adaptiven Parametern und wir trainieren auch das Modell und dann bekommen wir:
Wir können sehen, dass es einfach zu aussagekräftig ist und für alle Datenfälle geeignet ist. Wir sehen, dass ein viel größerer Hypothesenraum ( seit kann ausgedrückt werden durch indem man es einstellt wie alle 0 ) ist mächtiger als eine einfache Hypothese. Die Verallgemeinerung ist aber auch schlecht. Das heißt, wenn wir mehr Daten von CoolGuy erhalten und als Referenz dienen, versagt das trainierte Modell höchstwahrscheinlich in diesen unsichtbaren Fällen.
Wie groß ist dann der Hypothesenraum für den Trainingsdatensatz? Wir können eine Antwort aus dem oben genannten Lehrbuch finden:
Eine grobe Heuristik, die manchmal befürwortet wird, ist, dass die Anzahl der Datenpunkte nicht weniger als ein Vielfaches (z. B. 5 oder 10) der Anzahl der adaptiven Parameter im Modell betragen sollte.
Und Sie werden aus dem Lehrbuch sehen, dass, wenn wir versuchen, 4 Parameter zu verwenden, ist die trainierte Funktion für die zugrunde liegende Funktion ausdrucksstark genug . Es ist eine Art schwarze Kunst, in diesem Fall die Nummer 3 (den geeigneten Hypothesenraum) zu finden.
Dann können wir grob sagen, dass der Hypothesenraum das Maß dafür ist, wie aussagekräftig Ihr Modell ist, um zu den Trainingsdaten zu passen. Die Hypothese, die für die Trainingsdaten aussagekräftig genug ist, ist die gute Hypothese mit einem Ausdruckshypothesenraum. Um zu testen, ob die Hypothese gut oder schlecht ist, führen wir die Kreuzvalidierung durch, um festzustellen, ob sie im Validierungsdatensatz gut funktioniert. Wenn es weder unter- (zu begrenzt) noch überanpasst (zu ausdrucksstark) ist, reicht der Platz aus (laut Occam Razor ist ein einfacherer vorzuziehen, aber ich schweife ab).