Warum werden Gaußsche Prozessmodelle als nicht parametrisch bezeichnet?


26

Ich bin etwas verwirrt. Warum werden Gaußsche Prozesse als nicht parametrische Modelle bezeichnet?

Sie gehen davon aus, dass die funktionalen Werte oder eine Teilmenge davon einen Gaußschen Wert vor dem Mittelwert 0 und eine Kovarianzfunktion als Kernelfunktion haben. Diese Kernelfunktionen selbst haben einige Parameter (dh Hyperparameter).

Warum heißen sie dann nicht parametrische Modelle?


1
Ich kenne verschiedene Definitionen von "Gaußschen Prozessen", daher ist es nicht ersichtlich, worum es bei Ihrer Frage wirklich geht. Aber wenn Sie überlegen, wie Sie das klären können, fragen Sie sich: Wie genau würden Sie den Gaußschen Prozess parametrisieren, den Sie sich vorstellen? Wenn Sie dies nicht auf natürliche Weise mit einer endlichen Anzahl von reellen Parametern tun können, sollte dies als nichtparametrisch angesehen werden.
whuber

@whuber. AFAIK, die Hauptparameter der Gaußschen Prozesse, sind die Mittelwert- und die Kovarianzfunktion. Wenn wir jedoch weiterhin Datenpunkte hinzufügen, nehmen diese weiter zu. Also nimmt es weiter zu. Werden Gaußsche Prozesse deshalb als nicht parametrisch bezeichnet?
user34790

@whuber Wenn ich Millionen von Trainingsdatenpunkten habe, ist mein GP f ~ N (m, k) eine millionen-dimensionale multivariate Gauß-Verteilung. Ist das nicht zu groß? Ich meine, wenn neue Trainingsdaten kommen, werden sie immer größer. Gibt es nicht Anlass zu Rechenproblemen?
user34790

1
"Parametrisch" versus "nicht parametrisch" sind Begriffe, die nicht für bestimmte Prozesse gelten: Sie gelten für die gesamte Familie von Prozessen, die an Daten angepasst werden können. Obwohl ich immer noch nicht weiß, welche Familie Sie im Sinn haben, hört es sich so an, als ob die Anzahl der Parameter unter allen Umständen begrenzt sein mag. Es gibt keine Begrenzung für die Anzahl der Parameter, die unter Familienmitgliedern auftreten können : Ergo, das Problem ist nicht parametrisch.
whuber

Antworten:


20

Ich werde dies einleitend sagen , dass es nicht immer klar , was ein Mittel , durch „Nichtparametrische“ oder „semiparametrischer“ usw. In den Kommentaren, wie es scheint wahrscheinlich , dass whuber einige formale Definition im Sinne hat (vielleicht so etwas wie ein Modell der Wahl aus einer Familie wobei unendlich dimensional ist), aber ich werde ziemlich informell sein. Einige argumentieren möglicherweise, dass eine nichtparametrische Methode eine Methode ist, bei der die effektive Anzahl der von Ihnen verwendeten Parameter mit den Daten zunimmt. Ich denke, es gibt ein Video auf videolectures.net, in dem (meiner Meinung nach) Peter Orbanz vier oder fünf verschiedene Einstellungen gibt, wie wir "nichtparametrisch" definieren können. { M θ : θ Θ } ΘMθ{Mθ:θΘ}Θ

Da ich glaube zu wissen, was für Dinge Sie gehe ich der Einfachheit halber davon aus, dass Sie in typischer Weise über die Verwendung von Gaußschen Regressionsprozessen sprechen: Wir haben Trainingsdaten und wir interessieren uns für die Modellierung des bedingten Mittels . Wir schreiben und sind vielleicht so mutig anzunehmen, dass die iid und normal verteilt sind, . wird eindimensional sein, aber alles überträgt sich auf höhere Dimensionen.E ( Y | X = x ) : = f ( x ) Y i = F ( X i ) + ε i ε i ε i ~ N ( 0 , σ 2 ) X i(Y.ich,Xich),ich=1,...,nE(Y.|X=x): =f(x)

Y.ich=f(Xich)+ϵich
ϵichϵichN(0,σ2)Xich

Wenn unser Werte in einem Kontinuum annehmen kann, kann man sich als einen Parameter von (unzähligen) unendlicher Dimension vorstellen. In dem Sinne, dass wir einen Parameter von unendlicher Dimension schätzen , ist unser Problem ein nichtparametrisches. Es ist wahr, dass der Bayes'sche Ansatz einige Parameter hat, die hier und da schweben. Aber in Wirklichkeit heißt es nichtparametrisch, weil wir etwas von unendlicher Dimension schätzen. Die GP-Prioren, die wir verwenden, weisen jeder Nachbarschaft jeder stetigen Funktion eine Masse zu, so dass sie jede stetige Funktion beliebig gut einschätzen können.Xichf()

Die Dinge in der Kovarianzfunktion spielen eine ähnliche Rolle wie die Glättungsparameter in den üblichen Frequentistenschätzern - damit das Problem nicht absolut hoffnungslos ist, müssen wir davon ausgehen, dass es eine Struktur gibt, die wir für erwarten . Bayesianer erreichen dies, indem sie einen Prior auf den Raum kontinuierlicher Funktionen in Form eines Gaußschen Prozesses anwenden. Aus der Bayes'schen Perspektive kodieren wir Überzeugungen über indem wir annehmen, dass von einem Hausarzt mit einer solchen Kovarianzfunktion stammt. Der Prior bestraft Schätzungen von effektiv, weil sie zu kompliziert sind.ffff

Bearbeiten Sie für Berechnungsprobleme

Das meiste (alles?) Davon steht im Gaußschen Prozessbuch von Rasmussen und Williams.

Rechenprobleme sind für Allgemeinmediziner schwierig. Wenn wir fortfahren, brauchen wir Speicher der Größe , um die Kovarianzmatrix zu halten, und (es stellt sich heraus) -Operationen, um sie zu invertieren. Es gibt ein paar Dinge, die wir tun können, um die Dinge praktikabler zu machen. Eine Möglichkeit besteht darin, festzustellen, dass der Typ, den wir wirklich brauchen, , die Lösung für wobei die Kovarianzmatrix ist. Die Methode der konjugierten Gradienten löst dies genau in -Berechnungen, aber wenn wir uns mit einer Näherungslösung zufrieden geben, könnten wir den Algorithmus der konjugierten Gradienten nach Schritten beenden und dies in tun.O(N2)O(N3)v(K+σ2I)v=YKO(N3)kO(kN2)Berechnungen. Wir müssen auch nicht unbedingt die gesamte Matrix auf einmal speichern .K

Wir sind also von nach , aber dies skaliert immer noch quadratisch in , sodass wir möglicherweise nicht glücklich sind. Das nächstbeste ist, stattdessen mit einer Teilmenge der Daten zu arbeiten, beispielsweise mit der Größe bei der das Invertieren und Speichern einer Matrix nicht so schlecht ist. Natürlich wollen wir die restlichen Daten nicht einfach wegwerfen. Die Untermenge der Regressoren stellt fest, dass wir den hinteren Mittelwert unseres GP als Regression unserer Daten auf datenabhängige Basisfunktionen ableiten können, die durch unsere Kovarianzfunktion bestimmt werden. Also werfen wir alle bis auf weg und sind auf -Berechnungen angewiesen.O(N3)O(kN2)Nmm×mY.NmO(m2N)

Es gibt noch einige andere mögliche Optionen. Wir könnten eine low-rank Approximation konstruieren und SET wobei ist und vom Rang ; Es stellt sich Invertieren in diesem Fall kann durch Invertieren anstelle erfolgen . Eine andere Möglichkeit besteht darin, die Kovarianzfunktion sparsam zu wählen und konjugierte Gradientenmethoden zu verwenden. Wenn die Kovarianzmatrix sehr dünn ist, kann dies die Berechnungen erheblich beschleunigen.KK=Q.Q.TQ.n×qqK+σ2ichQ.TQ.+σ2ich


8

Im Allgemeinen bezieht sich der Begriff "nichtparametrisch" in der Bayes'schen Nichtparametrik auf Modelle mit einer unendlichen Anzahl von (potenziellen) Parametern. Auf videolectures.net ( wie diesem hier ) gibt es eine Menge wirklich netter Tutorials und Vorträge zum Thema, die einen schönen Überblick über diese Klasse von Modellen geben.

Insbesondere wird der Gaußsche Prozess (GP) als nichtparametrisch angesehen, da ein GP eine Funktion darstellt (dh einen unendlich dimensionalen Vektor). Wenn sich die Anzahl der Datenpunkte erhöht ((x, f (x)) Paare), erhöht sich auch die Anzahl der Modellparameter (wodurch die Form der Funktion eingeschränkt wird). Im Gegensatz zu einem parametrischen Modell, bei dem die Anzahl der Parameter in Bezug auf die Datengröße festgelegt bleibt, wächst die Anzahl der Parameter in nichtparametrischen Modellen mit der Anzahl der Datenpunkte.


Genau das habe ich angenommen. Ich denke, meine Annahme ist richtig. Aber meine Frage ist, ob ich Millionen Punkte habe (beobachtete Daten). Dann wird mein f auch eine millionenschwere Dimension haben. Hätte ich also keine Rechenprobleme? Außerdem wird meine Kovarianzmatrix auch die Größe 1 Million x 1 Million haben. Was soll ich also in diesem Fall tun?
user34790

@ user34790 Ja, Sie hätten Rechenprobleme. Rechenherausforderungen sind für Allgemeinmediziner ziemlich groß. Rasmussen und Williams haben ein Buch über Allgemeinmediziner mit einem ganzen Kapitel dazu, und wenn Sie hart genug googeln, können Sie es kostenlos online finden. In meinem aktualisierten Beitrag finden Sie einige minimale Details.
Kerl

1

Die von Ihnen als Hyperparameter bezeichneten Parameter sind keine physikalisch motivierten Parameter und daher der Name. Sie dienen ausschließlich zur Parametrisierung der Kernelfunktion. Zum Beispiel in einem Gaußschen Kernel:

K(xich,xj)=h2exp(-(xich-xj)2λ2)

hλ

Dieses Problem wurde auch in dieser Vorlesung angesprochen , es könnte helfen, ein besseres Verständnis zu erlangen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.