Ich verwende den Gaußschen Prozess (GP) für die Regression.
In meinem Problem ist es durchaus üblich, dass zwei oder mehr Datenpunkte relativ zu den Längenskalen des Problems nahe beieinander liegen. Beobachtungen können auch extrem laut sein. Um die Berechnungen zu beschleunigen und die Messgenauigkeit zu verbessern , erscheint es naheliegend, Cluster von Punkten zusammenzuführen / zu integrieren, die nahe beieinander liegen, solange mir Vorhersagen auf einer größeren Längenskala wichtig sind.
Ich frage mich, was ein schneller, aber halbprinzipierter Weg ist, dies zu tun.
Wenn sich zwei Datenpunkte perfekt überlappen, , und das Beobachtungsrauschen (dh die Wahrscheinlichkeit) Gaußsch ist, möglicherweise heteroskedastisch, aber bekannt , scheint die natürliche Vorgehensweise sie in einem einzigen zusammenzuführen Datenpunkt mit:
, fürk=1,2.
Beobachteter Wert der ein Durchschnitt der beobachteten Werte y ( 1 ) , y ( 2 ) ist, gewichtet mit ihrer relativen Genauigkeit: ˉ y = σ 2 y ( → x ( 2 ) ).
Wie soll ich jedoch zwei Punkte zusammenführen, die nahe beieinander liegen, sich aber nicht überlappen?
sollte immer noch ein gewichteter Durchschnitt der beiden Positionen sein, wiederum unter Verwendung der relativen Zuverlässigkeit. Die Begründung ist ein Schwerpunktargument (dh stellen Sie sich eine sehr genaue Beobachtung als einen Stapel weniger genauer Beobachtungen vor).
Zum gleiche Formel wie oben.
Für das mit der Beobachtung verbundene Rauschen frage ich mich, ob ich zusätzlich zu der obigen Formel einen Korrekturterm zum Rauschen hinzufügen sollte, da ich den Datenpunkt bewege. Im Wesentlichen würde ich eine Zunahme der damit verbundenen Unsicherheit erhalten und (jeweils Signalvarianz und Längenskala der Kovarianzfunktion). Ich bin mir der Form dieses Begriffs nicht sicher, aber ich habe einige vorläufige Ideen, wie ich ihn angesichts der Kovarianzfunktion berechnen kann.
Bevor ich fortfuhr, fragte ich mich, ob da draußen schon etwas war. und wenn dies eine vernünftige Vorgehensweise zu sein scheint oder es bessere schnelle Methoden gibt.
Das nächste, was ich in der Literatur finden konnte, ist dieses Papier: E. Snelson und Z. Ghahramani, Sparse Gaussian Processes using Pseudo-Inputs , NIPS '05; Ihre Methode ist jedoch (relativ) kompliziert und erfordert eine Optimierung, um die Pseudo-Eingänge zu finden.