Ich glaube, ich weiß, worauf der Sprecher hinauswollte. Persönlich stimme ich ihr / ihm nicht ganz zu, und es gibt viele Leute, die das nicht tun. Aber um fair zu sein, es gibt auch viele, die das tun :) Beachten Sie zunächst, dass das Angeben der Kovarianzfunktion (Kernel) das Angeben einer vorherigen Verteilung über Funktionen impliziert. Allein durch die Änderung des Kernels ändern sich die Realisierungen des Gaußschen Prozesses drastisch von den sehr glatten, unendlich differenzierbaren Funktionen, die vom Squared Exponential-Kernel generiert werden
auf den „stacheligen“, nicht - differenzierbaren Funktionen entsprechend einer exponentiellen kernel (oder Matern Kernel mit )ν=1/2
Eine andere Möglichkeit, dies zu sehen, besteht darin, den Vorhersagemittelwert (den Mittelwert der Vorhersagen des Gaußschen Prozesses, der durch Konditionieren des GP auf die Trainingspunkte erhalten wird) in einen Testpunkt x zu schreiben, im einfachsten Fall einer Funktion mit dem Mittelwert Null:x∗
y∗=k∗T(K+σ2I)−1y
Dabei ist der Kovarianzvektor zwischen dem Testpunkt x ∗ und den Trainingspunkten x 1 , … , x n , K ist die Kovarianzmatrix der Trainingspunkte, σ ist der Noise Term (setzen Sie in Ihrer Vorlesung einfach σ = 0) betroffene rauschfreie Vorhersagen, dh Gaußsche Prozessinterpolation) und y = ( y 1 , … , y n )k∗x∗x1,…,xnKσσ=0y=(y1,…,yn)ist der Vektor der Beobachtungen im Trainingsset. Wie Sie sehen, ist der prädiktive Mittelwert ungleich Null, auch wenn der Mittelwert des GP-Prior Null ist. Abhängig vom Kernel und der Anzahl der Trainingspunkte kann dies ein sehr flexibles Modell sein, das extrem lernfähig ist komplexe Muster.
Im Allgemeinen ist es der Kernel, der die Generalisierungseigenschaften des GP definiert. Einige Kernel haben die universelle Approximationseigenschaft , dh sie sind im Prinzip in der Lage, bei ausreichenden Trainingspunkten jede kontinuierliche Funktion auf einer kompakten Teilmenge an eine vorgegebene maximale Toleranz anzunähern.
Warum sollten Sie sich dann überhaupt für die mittlere Funktion interessieren? Erstens macht eine einfache Mittelwertfunktion (eine lineare oder orthogonale Polynomfunktion) das Modell viel deutlicher, und dieser Vorteil ist für ein so flexibles (also kompliziertes) Modell wie das GP nicht zu unterschätzen. Zweitens saugt in gewisser Weise der Mittelwert Null (oder, was es wert ist, auch der konstante Mittelwert) der GP an einer Vorhersage, die weit von den Trainingsdaten entfernt ist. Viele stationäre Kerne (mit Ausnahme der periodischen Kerne) sind so, dass für dist ( x i , x ∗ ) → ∞ giltk(xi−x∗)→0dist(xi,x∗)→∞. Diese Konvergenz auf 0 kann überraschend schnell erfolgen, insbesondere beim Squared Exponential-Kernel, und insbesondere dann, wenn eine kurze Korrelationslänge erforderlich ist, um das Trainingsset gut anzupassen. Daher sagt ein GP mit der Mittelwertfunktion Null immer voraus, sobald Sie sich vom Trainingssatz entfernen.y∗≈0
Dies kann in Ihrer Anwendung sinnvoll sein. Schließlich ist es häufig eine schlechte Idee, ein datengesteuertes Modell zu verwenden, um Vorhersagen außerhalb der Datenpunkte durchzuführen, die zum Trainieren des Modells verwendet werden. Sehen hier für viele interessante und unterhaltsame Beispiele, warum dies eine schlechte Idee sein kann. In dieser Hinsicht ist der GP mit dem Mittelwert Null, der vom Trainingssatz immer gegen 0 konvergiert, sicherer als ein Modell (wie zum Beispiel ein multivariates orthogonales Polynommodell mit hohem Grad), das gerne wahnsinnig große Vorhersagen abschießt, sobald Sie kommen von den Trainingsdaten weg.
x∗