Gaußscher Prozess und Korrelation

Ich habe mich gefragt, warum Menschen Gaußsche Prozesse (GP) verwenden, um eine unbekannte (manchmal deterministische) Funktion zu modellieren. Betrachten Sie zum Beispiel eine unbekannte Funktion . Wir haben drei unabhängige Beobachtungen von dieser Funktion: $y=f(x)$

(x_{1}, y_{1}); (x_{2}, y_{2}); (x_{3}, y_{3})

$\big(x_1,y_1); \big(x_2,y_2); \big(x_3,y_3)$

Um die zugrunde liegende Funktion zu lernen, ist der GP eine übliche nichtparametrische Technik, die alle Ausgaben als gemeinsame multivariate Normalverteilung behandelt. Nehmen Sie eine bestimmte Kovarianzfunktion und nehmen Sie an: Der GP hat die folgende Form $K(x_i,y_i)$

y = (y_{1}, y_{2}, y_{3}); X = (x_{1}, x_{2}, x_{3})

$\mathbf{y}=(y_1,y_2,y_3);\mathbf{X}=(x_1,x_2,x_3)$

y | X \sim N (0, [\begin{matrix} K (x_{1}, x_{1}) & K (x_{1}, x_{2}) & K (x_{1}, x_{3}) \\ K (x_{1}, x_{2}) & K (x_{2}, x_{2}) & K (x_{2}, x_{3}) \\ K (x_{1}, x_{3}) & K (x_{2}, x_{3}) & K (x_{3}, x_{3}) \end{matrix}])

$\\ \bf{y}|X \sim N\Bigg(\mathbf{0},\begin{bmatrix} K(x_1,x_1) & K(x_1,x_2) & K(x_1,x_3) \\ K(x_1,x_2) & K(x_2,x_2) & K(x_2,x_3) \\ K(x_1,x_3) & K(x_2,x_3) & K(x_3,x_3) \ \end{bmatrix}\Bigg)\\$

Die Beobachtungen sind unabhängig. Ihre einzige Gemeinsamkeit besteht darin, dass sie aus derselben zugrunde liegenden Funktion stammen. $\big(x_i,y_i)$

Meine Hauptfrage lautet: Warum erzwingen wir die und ? Ist das nicht das falsche Modell? Warum können wir davon ausgehen , dass wir gute Vorhersageergebnisse für jeden bekommen . $\big(x_i,y_j)$ $\big(x_{l},y_{m})$ $y|x$

Ich bin mir nicht sicher, welchen Aspekt mir bei diesem Problem fehlt und warum das Erzwingen der Korrelation hilfreich ist.

— Wis
quelle

Die Auswahl eines Kernels entspricht der Auswahl einer Funktionsklasse, aus der Sie Ihr Modell auswählen. Wenn sich die Auswahl eines Kernels wie eine große Sache anfühlt, die viele Annahmen codiert, dann liegt das daran, dass es so ist! Leute, die neu auf dem Gebiet sind, denken oft nicht viel über die Wahl des Kernels nach und entscheiden sich einfach für den Gaußschen Kernel, auch wenn dies nicht angemessen ist.

Wie entscheiden wir, ob ein Kernel angemessen erscheint oder nicht? Wir müssen darüber nachdenken, wie die Funktionen im entsprechenden Funktionsraum aussehen. Der Gaußsche Kernel entspricht sehr glatten Funktionen, und wenn dieser Kernel ausgewählt wird, wird angenommen, dass glatte Funktionen ein anständiges Modell liefern. Dies ist nicht immer der Fall, und es gibt unzählige andere Kernel, die unterschiedliche Annahmen darüber codieren, wie Ihre Funktionsklasse aussehen soll. Es gibt Kernel zum Modellieren periodischer Funktionen, instationäre Kernel und eine ganze Reihe anderer Dinge. Zum Beispiel ist die vom Gaußschen Kernel codierte Glättungsannahme nicht für die Textklassifizierung geeignet, wie Charles Martin in seinem Blog hier gezeigt hat .

Schauen wir uns Beispiele für Funktionen aus Räumen an, die zwei verschiedenen Kerneln entsprechen. Der erste ist der Gaußsche Kernel und der andere ist der Brownsche Bewegungskernel . Eine einzelne zufällige Ziehung aus jedem Feld sieht wie folgt aus: $k_1(x, x') = \exp(-\gamma |x - x'|^2)$ $k_2(x, x') = \min \{x, x'\}$

Dies sind eindeutig sehr unterschiedliche Annahmen darüber, was ein gutes Modell ist.

Beachten Sie auch, dass wir nicht unbedingt eine Korrelation erzwingen. Nehmen Sie Ihre mittlere Funktion als und Ihre Kovarianzfunktion als . Jetzt ist unser Modell dh wir haben gerade die lineare Regression wiederhergestellt. $\mu(x) = x^T \beta$ $k(x_i, x_j) = \sigma^2 \mathbf 1(i = j)$

Y | X \sim N (X β, σ^{2} I)

$Y | X \sim \mathcal N(X\beta, \sigma^2 I)$

Im Allgemeinen ist diese Korrelation zwischen nahe gelegenen Punkten jedoch ein äußerst nützliches und leistungsfähiges Modell. Stellen Sie sich vor, Sie besitzen eine Ölbohrfirma und möchten neue Ölreserven finden. Das Bohren ist extrem teuer, daher möchten Sie so wenig wie möglich bohren. Nehmen wir an, wir haben gebohrt $n=5$ Löcher und wir wollen wissen, wo unser nächstes Loch sein sollte. Wir können uns vorstellen, dass sich die Ölmenge in der Erdkruste gleichmäßig ändert. Daher werden wir die Ölmenge in dem gesamten Gebiet modellieren, in das wir mit einem Gaußschen Prozess unter Verwendung des Gaußschen Kerns bohren möchten Zu sagen, dass wirklich nahe Orte wirklich ähnliche Mengen an Öl haben und wirklich weit voneinander entfernte Orte praktisch unabhängig sind. Der Gaußsche Kernel ist ebenfalls stationär, was in diesem Fall sinnvoll ist: Die Stationarität besagt, dass die Korrelation zwischen zwei Punkten nur vom Abstand zwischen ihnen abhängt. Wir können dann unser Modell verwenden, um vorherzusagen, wo wir als nächstes bohren sollen. Wir haben gerade einen einzigen Schritt in einer Bayes'schen Optimierung gemachtund ich finde, dass dies ein sehr guter Weg ist, um intuitiv zu verstehen, warum wir den Korrelationsaspekt von Hausärzten mögen.

Eine weitere gute Ressource ist Jones et al. (1998) . Sie nennen ihr Modell keinen Gaußschen Prozess, aber es ist so. Dieses Papier gibt ein sehr gutes Gefühl dafür, warum wir die Korrelation zwischen nahe gelegenen Punkten auch in einer deterministischen Umgebung verwenden möchten.

Ein letzter Punkt: Ich glaube, niemand geht jemals davon aus, dass wir gute Vorhersageergebnisse erzielen können. Das möchten wir überprüfen, beispielsweise durch Kreuzvalidierung.

Aktualisieren

Ich möchte die Art der Korrelation klären, die wir modellieren. Betrachten wir zunächst die lineare Regression, also . Unter diesem Modell haben wir für . Wir wissen aber auch, dass wenn dann $Y | X \sim \mathcal N(X\beta, \sigma^2 I)$ $Y_i \perp Y_j | X$ $i \neq j$ $||x_1 - x_2||^2 < \varepsilon$

(E (Y_{1} | X) - E (Y_{2} | X))^{2} = (x_{1}^{T} β - x_{2}^{T} β)^{2} = ⟨ x_{1} - x_{2}, β ⟩^{2} \leq | | x_{1} - x_{2} | |^{2} | | β | |^{2} < ε | | β | |^{2} .

$(E(Y_1 | X) - E(Y_2 | X))^2 = (x_1^T \beta - x_2^T \beta)^2 = \langle x_1 - x_2, \beta \rangle^2 \leq || x_1 - x_2||^2 ||\beta ||^2 < \varepsilon ||\beta ||^2.$

Dies sagt uns also, dass wenn die Eingänge und sehr nahe liegen, die von und sehr nahe liegen. Dies unterscheidet sich von der Korrelation, da sie immer noch unabhängig sind, wie $x_1$ $x_2$ $Y_1$ $Y_2$

P (Y_{1} > E (Y_{1} | X) | Y_{2} > E (Y_{2} | X)) = P (Y_{1} > E (Y_{1} | X)) .

$P(Y_1 > E(Y_1 | X) \ \vert \ Y_2 > E(Y_2 | X)) = P(Y_1 > E(Y_1 | X)).$

Wenn sie korreliert wären, würde das Wissen, dass über dem Mittelwert liegt, etwas über . $Y_2$ $Y_1$

Lassen Sie uns nun aber wir werden die Korrelation durch hinzufügen . Wir haben immer noch das gleiche Ergebnis, das ist klein, aber jetzt haben wir die Tatsache gewonnen, dass Wenn beispielsweise größer als sein Mittelwert ist, ist es wahrscheinlich auch . Dies ist die Korrelation, die wir hinzugefügt haben. $\mu(x) = x^T \beta$ $Cov(Y_i, Y_j) = k(x_i, x_j)$ $||x_1 - x_2||^2 < \varepsilon \implies (E(Y_1 | X) - E(Y_2 | X))^2$ $Y_1$ $Y_2$

— jld
quelle

Danke für deinen Kommentar. Ihre Erklärung ist sehr nützlich. Meine Frage konzentriert sich jedoch hauptsächlich auf die Idee, dass eine Korrelation zwischen den Tupeln und in der Realität nicht existiert. Dann erzwingt der GP eine Korrelation in der multivariaten Normalverteilung (außer im Fall ). Ist diese Korrelation dieselbe Korrelation wie die von Zufallsvariablen? oder ist anders definiert, da wir funktionale Beziehungen modellieren? Ist diese Korrelation interpretierbar? und warum hilft es?

(x_{i}, x_{j})

$(x_i,x_j)$

(x_{l}, x_{m})

$(x_l,x_m)$

K = 1 (i = j)

$K=1(i=j)$

— Wis

wir auch sagen, dass nicht unabhängig von weil sie von derselben zugrunde liegenden Funktion stammen und beide von abhängen ? deshalb sollte die Korrelation haben. Ich weiß es wirklich zu schätzen, dass Sie bei diesen Fragen helfen

y_{i}

$y_i$

y_{j}

$y_j$

x

$x$

— Wis

@ kon7 Ich habe ein Update zur Korrelation hinzugefügt, das hoffentlich hilft.

— 2.

Vielen Dank, Ihre Antwort ist unglaublich. Ich habe die Antwort akzeptiert. Ich habe noch eine kleine Anfrage. Die Art der Informationen, die wir hinzugefügt haben, können wir sie Korrelation nennen, in der typischen statistischen Bedeutung der Korrelation? Hat es eine Bedeutung im Sinne einer funktionalen Korrelation, weil wir hier eher die Tupel als die Zufallsvariablen

(x_{i}, y_{i})

$\big(x_i,y_i)$

y^{'} s

$y's$

— Wis

@ kon7 Dies ist völlig der Standard-Korrelationssinn, da wir mit einer Kovarianzmatrix . ist, wie wir dies berechnen, aber die sind in der Standardformulierung deterministisch und die einzige Kovarianz besteht zwischen den .

K

$K$

X

$X$

x_{i}

$x_i$

Y_{i}

$Y_i$

— Jld

Wenn und einander ähnlich sind, dh groß ist, sollten und wahrscheinlich auch einander ähnlich sein. Daher führt die Nähe im Eingaberaum (der zu approximierenden Funktion) zur Nähe im Ausgaberaum. Dies sind vernünftige Annahmen für viele Anwendungen. Wenn beispielsweise zwei Schüler einen ähnlichen High-School-Abschluss haben, wird von ihnen erwartet, dass sie auch in der SAT-Prüfung ähnliche Leistungen erbringen. $x_i$ $x_l$ $k(x_i, x_l)$ $y_i$ $y_l$

— Seeda
quelle