Ich werde dies einleitend sagen , dass es nicht immer klar , was ein Mittel , durch „Nichtparametrische“ oder „semiparametrischer“ usw. In den Kommentaren, wie es scheint wahrscheinlich , dass whuber einige formale Definition im Sinne hat (vielleicht so etwas wie ein Modell der Wahl aus einer Familie wobei unendlich dimensional ist), aber ich werde ziemlich informell sein. Einige argumentieren möglicherweise, dass eine nichtparametrische Methode eine Methode ist, bei der die effektive Anzahl der von Ihnen verwendeten Parameter mit den Daten zunimmt. Ich denke, es gibt ein Video auf videolectures.net, in dem (meiner Meinung nach) Peter Orbanz vier oder fünf verschiedene Einstellungen gibt, wie wir "nichtparametrisch" definieren können. { M θ : θ ∈ Θ } ΘMθ{ Mθ: θ ∈ Θ }Θ
Da ich glaube zu wissen, was für Dinge Sie gehe ich der Einfachheit halber davon aus, dass Sie in typischer Weise über die Verwendung von Gaußschen Regressionsprozessen sprechen: Wir haben Trainingsdaten und wir interessieren uns für die Modellierung des bedingten Mittels . Wir schreiben
und sind vielleicht so mutig anzunehmen, dass die iid und normal verteilt sind, . wird eindimensional sein, aber alles überträgt sich auf höhere Dimensionen.E ( Y | X = x ) : = f ( x ) Y i = F ( X i ) + ε i ε i ε i ~ N ( 0 , σ 2 ) X i( Yich, Xich) , I = 1 , . . . , nE( Y| X= x ) : = f( x )
Y.ich= f( Xich) + ϵich
ϵichϵich∼ N( 0 , σ2)Xich
Wenn unser Werte in einem Kontinuum annehmen kann, kann man sich als einen Parameter von (unzähligen) unendlicher Dimension vorstellen. In dem Sinne, dass wir einen Parameter von unendlicher Dimension schätzen , ist unser Problem ein nichtparametrisches. Es ist wahr, dass der Bayes'sche Ansatz einige Parameter hat, die hier und da schweben. Aber in Wirklichkeit heißt es nichtparametrisch, weil wir etwas von unendlicher Dimension schätzen. Die GP-Prioren, die wir verwenden, weisen jeder Nachbarschaft jeder stetigen Funktion eine Masse zu, so dass sie jede stetige Funktion beliebig gut einschätzen können.Xichf( ⋅ )
Die Dinge in der Kovarianzfunktion spielen eine ähnliche Rolle wie die Glättungsparameter in den üblichen Frequentistenschätzern - damit das Problem nicht absolut hoffnungslos ist, müssen wir davon ausgehen, dass es eine Struktur gibt, die wir für erwarten . Bayesianer erreichen dies, indem sie einen Prior auf den Raum kontinuierlicher Funktionen in Form eines Gaußschen Prozesses anwenden. Aus der Bayes'schen Perspektive kodieren wir Überzeugungen über indem wir annehmen, dass von einem Hausarzt mit einer solchen Kovarianzfunktion stammt. Der Prior bestraft Schätzungen von effektiv, weil sie zu kompliziert sind.ffff
Bearbeiten Sie für Berechnungsprobleme
Das meiste (alles?) Davon steht im Gaußschen Prozessbuch von Rasmussen und Williams.
Rechenprobleme sind für Allgemeinmediziner schwierig. Wenn wir fortfahren, brauchen wir Speicher der Größe , um die Kovarianzmatrix zu halten, und (es stellt sich heraus) -Operationen, um sie zu invertieren. Es gibt ein paar Dinge, die wir tun können, um die Dinge praktikabler zu machen. Eine Möglichkeit besteht darin, festzustellen, dass der Typ, den wir wirklich brauchen, , die Lösung für wobei die Kovarianzmatrix ist. Die Methode der konjugierten Gradienten löst dies genau in -Berechnungen, aber wenn wir uns mit einer Näherungslösung zufrieden geben, könnten wir den Algorithmus der konjugierten Gradienten nach Schritten beenden und dies in tun.O ( N2)O ( N3)v( K+ σ2ich) v = YKO ( N3)kO ( k N2)Berechnungen. Wir müssen auch nicht unbedingt die gesamte Matrix auf einmal speichern .K
Wir sind also von nach , aber dies skaliert immer noch quadratisch in , sodass wir möglicherweise nicht glücklich sind. Das nächstbeste ist, stattdessen mit einer Teilmenge der Daten zu arbeiten, beispielsweise mit der Größe bei der das Invertieren und Speichern einer Matrix nicht so schlecht ist. Natürlich wollen wir die restlichen Daten nicht einfach wegwerfen. Die Untermenge der Regressoren stellt fest, dass wir den hinteren Mittelwert unseres GP als Regression unserer Daten auf datenabhängige Basisfunktionen ableiten können, die durch unsere Kovarianzfunktion bestimmt werden. Also werfen wir alle bis auf weg und sind auf -Berechnungen angewiesen.O ( N3)O ( k N2)Nmm × mY.NmO ( m2N)
Es gibt noch einige andere mögliche Optionen. Wir könnten eine low-rank Approximation konstruieren und SET wobei ist und vom Rang ; Es stellt sich Invertieren in diesem Fall kann durch Invertieren anstelle erfolgen . Eine andere Möglichkeit besteht darin, die Kovarianzfunktion sparsam zu wählen und konjugierte Gradientenmethoden zu verwenden. Wenn die Kovarianzmatrix sehr dünn ist, kann dies die Berechnungen erheblich beschleunigen.KK= Q QTQ.n × qqK+ σ2ichQ.TQ + σ2ich