Warum ist die mittlere Funktion im Gaußschen Prozess nicht von Interesse?

28

Ich habe gerade angefangen, über GPs zu lesen, und analog zur regulären Gaußschen Verteilung ist sie durch eine mittlere Funktion und die Kovarianzfunktion oder den Kernel gekennzeichnet. Ich war auf einem Vortrag und der Sprecher sagte, dass die Mittelwertfunktion normalerweise ziemlich uninteressant ist und der gesamte Inferenzaufwand für die Schätzung der korrekten Kovarianzfunktion aufgewendet wird.

Kann mir jemand erklären, warum das so sein sollte?

gaussian-process

— Luca
quelle

33

Ich glaube, ich weiß, worauf der Sprecher hinauswollte. Persönlich stimme ich ihr / ihm nicht ganz zu, und es gibt viele Leute, die das nicht tun. Aber um fair zu sein, es gibt auch viele, die das tun :) Beachten Sie zunächst, dass das Angeben der Kovarianzfunktion (Kernel) das Angeben einer vorherigen Verteilung über Funktionen impliziert. Allein durch die Änderung des Kernels ändern sich die Realisierungen des Gaußschen Prozesses drastisch von den sehr glatten, unendlich differenzierbaren Funktionen, die vom Squared Exponential-Kernel generiert werden

auf den „stacheligen“, nicht - differenzierbaren Funktionen entsprechend einer exponentiellen kernel (oder Matern Kernel mit ) $\nu=1/2$

Eine andere Möglichkeit, dies zu sehen, besteht darin, den Vorhersagemittelwert (den Mittelwert der Vorhersagen des Gaußschen Prozesses, der durch Konditionieren des GP auf die Trainingspunkte erhalten wird) in einen Testpunkt zu schreiben, im einfachsten Fall einer Funktion mit dem Mittelwert Null: $x^*$

y^{*} = k^{* T} (K + σ^{2} I)^{- 1} y

$y^*=\mathbf{k}^{*T}(K+\sigma^{2}I)^{-1}\mathbf{y}$

Dabei ist der Kovarianzvektor zwischen dem Testpunkt und den Trainingspunkten , ist die Kovarianzmatrix der Trainingspunkte, ist der Noise Term (setzen Sie in Ihrer Vorlesung einfach betroffene rauschfreie Vorhersagen, dh Gaußsche Prozessinterpolation) und $\mathbf{k}^*$ $x^*$ $x_1,\ldots,x_n$ $K$ $\sigma$ $\sigma=0$ $\mathbf{y}=(y_1,\ldots,y_n)$ ist der Vektor der Beobachtungen im Trainingsset. Wie Sie sehen, ist der prädiktive Mittelwert ungleich Null, auch wenn der Mittelwert des GP-Prior Null ist. Abhängig vom Kernel und der Anzahl der Trainingspunkte kann dies ein sehr flexibles Modell sein, das extrem lernfähig ist komplexe Muster.

Im Allgemeinen ist es der Kernel, der die Generalisierungseigenschaften des GP definiert. Einige Kernel haben die universelle Approximationseigenschaft , dh sie sind im Prinzip in der Lage, bei ausreichenden Trainingspunkten jede kontinuierliche Funktion auf einer kompakten Teilmenge an eine vorgegebene maximale Toleranz anzunähern.

Warum sollten Sie sich dann überhaupt für die mittlere Funktion interessieren? Erstens macht eine einfache Mittelwertfunktion (eine lineare oder orthogonale Polynomfunktion) das Modell viel deutlicher, und dieser Vorteil ist für ein so flexibles (also kompliziertes) Modell wie das GP nicht zu unterschätzen. Zweitens saugt in gewisser Weise der Mittelwert Null (oder, was es wert ist, auch der konstante Mittelwert) der GP an einer Vorhersage, die weit von den Trainingsdaten entfernt ist. Viele stationäre Kerne (mit Ausnahme der periodischen Kerne) sind so, dass für $k(x_i-x^*) \to 0$ $\operatorname{dist}(x_i,x^*)\to\infty$ . Diese Konvergenz auf 0 kann überraschend schnell erfolgen, insbesondere beim Squared Exponential-Kernel, und insbesondere dann, wenn eine kurze Korrelationslänge erforderlich ist, um das Trainingsset gut anzupassen. Daher sagt ein GP mit der Mittelwertfunktion Null immer voraus, sobald Sie sich vom Trainingssatz entfernen. $y^*\approx 0$

Dies kann in Ihrer Anwendung sinnvoll sein. Schließlich ist es häufig eine schlechte Idee, ein datengesteuertes Modell zu verwenden, um Vorhersagen außerhalb der Datenpunkte durchzuführen, die zum Trainieren des Modells verwendet werden. Sehen hier für viele interessante und unterhaltsame Beispiele, warum dies eine schlechte Idee sein kann. In dieser Hinsicht ist der GP mit dem Mittelwert Null, der vom Trainingssatz immer gegen 0 konvergiert, sicherer als ein Modell (wie zum Beispiel ein multivariates orthogonales Polynommodell mit hohem Grad), das gerne wahnsinnig große Vorhersagen abschießt, sobald Sie kommen von den Trainingsdaten weg.

$x^*$

— DeltaIV
quelle

Delta, wissen Sie, was eine gute Mittelwertfunktion wäre?

— Ein alter Mann im Meer.

1

@Anoldmaninthesea es kommt sehr auf die anwendung an. Wie ich bereits erklärt habe, ist es wahrscheinlich besser, sich auf die Verbesserung der Kovarianzfunktion zu konzentrieren, als auf die Mittelwertfunktion

— DeltaIV

1

Delta, nun ja, in meinem Fall muss ich versuchen, einige Vorhersagen zu treffen, die weit von den beobachteten Daten entfernt sind ... Ich habe diese Frage hier gestellt: stats.stackexchange.com/questions/375468/…

— Ein alter Mann in der Meer.

6

Wir können nicht im Namen der Person sprechen, die den Vortrag gehalten hat. Vielleicht hatte der Sprecher eine andere Idee, als er diese Aussage machte. Wenn Sie jedoch versuchen, Posterior-Vorhersagen aus einem Hausarzt zu erstellen, verfügt eine konstante Mittelwertfunktion über eine geschlossene Lösung, die genau berechnet werden kann. Bei einer allgemeineren Mittelwertfunktion müssen Sie jedoch auf ungefähre Methoden zurückgreifen, z. B. Simulation.

Zusätzlich steuert die Kovarianzfunktion, wie schnell (und wo) Abweichungen von der Mittelwertfunktion auftreten. Daher ist es häufig so, dass eine flexiblere / steifere Kovarianzfunktion "gut genug" ist, um sich einer verzierteren Mittelwertfunktion anzunähern - was wiederum gewährt Zugriff auf die Convenience-Eigenschaften einer konstanten Mittelwertfunktion.

— Sycorax sagt Reinstate Monica
quelle

Danke für diese Erklärung. Ja, ich konnte meine Frage nicht stellen und fragte mich, ob es einen grundsätzlichen Grund dafür gibt.

— Luca

6

Ich gebe Ihnen eine Erklärung, die der Sprecher wahrscheinlich nicht gemeint hat. Bei manchen Anwendungen sind die Mittel immer langweilig. Nehmen wir zum Beispiel an, wir prognostizieren Verkäufe mit einem autoregressiven Modell $y_t=c+\gamma y_{t-1}+e_t$ . Der langfristige Mittelwert ist offensichtlich $E[y_t]\equiv\mu=\frac{c}{1-\gamma}$ . Ist es interessant?

Das hängt von Ihrem Ziel ab. Wenn Sie nach der Geschäftsbewertung sind, werden Sie darauf hingewiesen, dass Sie eine Erhöhung vornehmen müssen $c$ oder abnehmen $\gamma$ den Wert des Geschäfts zu erhöhen, weil der Wert gegeben ist durch:

V = \frac{μ}{r}

$V=\frac{\mu}{r}$ woher

r

$r$ ist der Abzinsungsfaktor. Der Mittelwert ist also eindeutig interessant.

Wenn Sie an der Liquidität interessiert sind, dh wenn Sie über genügend Bargeld verfügen, um die Ausgaben in den nächsten Monaten zu decken, ist der Mittelwert nahezu irrelevant. Sie sehen sich die Cash-Prognose für den nächsten Monat an:

y_{1} = c + γ y_{0}

$y_1=c+\gamma y_0$ Also der Umsatz dieses Monats

y_{0}

$y_0$ sind jetzt ein Faktor.

— Aksakal
quelle

6

Nun, ein sehr guter Grund ist, dass die mittlere Funktion möglicherweise nicht im Raum der Funktionen lebt, die Sie modellieren möchten. jeder Eingabepunkt, $x_i$ , kann einen entsprechenden posterioren Mittelwert haben, $\mu(x_i)$ . Diese hinteren Mittelwerte sind jedoch die Erwartung, bevor Sie andere Daten sehen. Es gibt also viele Fälle, in denen keine Situation, in der die zukünftigen Daten beobachtet werden, diese mittlere Funktion hervorruft.

Einfaches Beispiel: Stellen Sie sich vor, Sie passen eine Sinusfunktion mit unbekanntem Versatz, aber bekannter Periode und Amplitude an. Der vorherige Mittelwert ist für alle Null $x$ aber eine konstante Linie nicht leben innerhalb von Sinusfunktionen wir beschrieben. Die Kovarianzfunktion liefert uns diese zusätzlichen Strukturinformationen.

— j__
quelle

0

Einfach ausgedrückt dominiert die Mittelwertfunktion die Kovarianzfunktion für Eingaben, die weit von Beobachtungen entfernt sind.
Auf diese Weise können Sie Ihre Vorkenntnisse in die Makrodynamik Ihres Systems einfließen lassen.

— mik
quelle

1

Ich verstehe deine Antwort nicht. Könnten Sie das klären?

— Michael R. Chernick