Du hast gefragt:
funktioniert die Gaußsche Prozessregression in dem Fall, in dem 𝑛 10 Millionen beträgt, immer noch?
Nicht im üblichen Sinne, eine große Matrix zu konstruieren und zu invertieren. Sie haben zwei Möglichkeiten: 1) Wählen Sie ein anderes Modell oder 2) machen Sie eine Annäherung.
1) Einige GP-basierte Modelle können auf sehr große Datenmengen skaliert werden, z. B. die in der obigen Antwort verknüpfte Bayes'sche Komiteemaschine. Ich finde diesen Ansatz jedoch eher unbefriedigend: Es gibt gute Gründe für die Wahl eines GP-Modells, und wenn wir zu einem berechenbareren Modell wechseln, behalten wir möglicherweise nicht die Eigenschaften des ursprünglichen Modells bei. Die prädiktiven Varianzen des BCM hängen beispielsweise stark von der Datenaufteilung ab.
2) Der "klassische" Ansatz zur Approximation bei Hausärzten besteht in der Approximation der Kernelmatrix. Eine gute Übersicht über diese Art von Methoden finden Sie hier: http://www.jmlr.org/papers/volume6/quinonero-candela05a/quinonero-candela05a.pdf . Tatsächlich können wir diese Matrixnäherungen normalerweise als Modellnäherungen betrachten und sie mit der Bayes'schen Komiteemaschine zusammenfassen: Es handelt sich um Änderungen am Modell, und es kann schwierig sein zu verstehen, wann diese Änderungen pathologisch sein könnten. Hier ist eine super Bewertung: https://papers.nips.cc/paper/6477-understanding-probabilistic-sparse-gaussian-process-approximations.pdf
Ich befürworte die Annäherung an große Allgemeinmediziner, indem ich vermeide, die Kernelmatrix oder das Modell zu approximieren und die posteriore Verteilung mithilfe von Variationsinferenz zu approximieren . Viele der Berechnungen sehen aus wie eine Matrixnäherung mit niedrigem Rang, aber es gibt eine sehr wünschenswerte Eigenschaft: Je mehr Berechnungen Sie verwenden (je mehr "Ränge"), desto näher liegt die Annäherung am wahren posterioren Wert, gemessen vom KL Abweichungen.
Diese Artikel sind ein guter Ausgangspunkt: http://proceedings.mlr.press/v5/titsias09a/titsias09a.pdf
https://arxiv.org/pdf/1309.6835
Ich habe hier einen längeren Artikel über dasselbe Argument geschrieben: https://www.prowler.io/blog/sparse-gps-approximate-the-posterior-not-the-model
In der Praxis funktioniert die Variationsnäherung in vielen Fällen sehr gut. Ich habe es ausgiebig in realen Anwendungen verwendet. Und in jüngerer Zeit gab es eine ausgezeichnete Theorie, um zu belegen, warum es funktionieren sollte ( https://arxiv.org/abs/1903.03571 ).
Ein letzter Plug: Variationsinferenz in Hausärzten ist in gpflow implementiert ( https://github.com/GPflow/GPflow )