Ich arbeite an einem hochdimensionalen Inferenzproblem (ca. 2000 Modellparameter), für das wir eine MAP-Schätzung robust durchführen können, indem wir das globale Maximum des log-posterior unter Verwendung einer Kombination aus gradientenbasierter Optimierung und einem genetischen Algorithmus ermitteln.
Ich würde sehr gerne in der Lage sein, zusätzlich zur MAP-Schätzung eine Schätzung der Unsicherheiten in Bezug auf die Modellparameter vorzunehmen.
Wir sind in der Lage, den Gradienten des logarithmischen Seitenzahns in Bezug auf die Parameter effizient zu berechnen. Langfristig wollen wir Hamiltonian MCMC verwenden, um einige Stichproben durchzuführen, aber im Moment bin ich an Schätzungen interessiert, die nicht auf Stichproben basieren.
Der einzige Ansatz, den ich kenne, besteht darin, die Umkehrung des Hessischen im Modus zu berechnen, um den posterioren Wert als multivariates Normal zu approximieren, aber selbst dies scheint für ein so großes System nicht durchführbar zu sein, da selbst wenn wir die berechnen Elemente des Hessischen Ich bin sicher, wir konnten seine Umkehrung nicht finden.
Kann jemand vorschlagen, welche Ansätze in solchen Fällen normalerweise verwendet werden?
Vielen Dank!
BEARBEITEN - zusätzliche Informationen zum Problem
Hintergrund
Dies ist ein umgekehrtes Problem im Zusammenhang mit einem großen physikalischen Experiment. Wir haben ein 2D-Dreiecksnetz, das einige physikalische Felder beschreibt, und unsere Modellparameter sind die physikalischen Werte dieser Felder an jedem Scheitelpunkt des Netzes. Das Netz hat ungefähr 650 Eckpunkte, und wir modellieren 3 Felder. Daher stammen unsere 2000 Modellparameter.
Unsere experimentellen Daten stammen von Instrumenten, die diese Felder nicht direkt messen, sondern von Größen, die komplizierte nichtlineare Funktionen der Felder sind. Für jedes der verschiedenen Instrumente haben wir ein Vorwärtsmodell, das die Modellparameter auf Vorhersagen der experimentellen Daten abbildet, und ein Vergleich zwischen der Vorhersage und der Messung ergibt eine logarithmische Wahrscheinlichkeit.
Wir fassen dann die Log-Wahrscheinlichkeiten all dieser verschiedenen Instrumente zusammen und fügen einige Log-Prior-Werte hinzu, die einige physikalische Einschränkungen auf die Felder anwenden.
Folglich bezweifle ich, dass dieses 'Modell' ordentlich in eine Kategorie fällt - wir haben keine Wahl, was das Modell ist, es wird durch die Funktionsweise der tatsächlichen Instrumente bestimmt, die unsere experimentellen Daten sammeln.
Datensatz
der Datensatz von 500x500 Bildern zusammengesetzt ist, und es wird ein Bild für jede Kamera so Gesamtdatenpunkte ist 500x500x4 = .
Fehlermodell
Wir nehmen an, dass alle Fehler im Problem im Moment Gaußsch sind. Irgendwann könnte ich versuchen, auf ein Student-t-Fehlermodell umzusteigen, nur um zusätzliche Flexibilität zu erhalten, aber nur mit Gaußschen scheint es immer noch gut zu funktionieren.
Wahrscheinlichkeitsbeispiel
Dies ist ein plasmaphysikalisches Experiment, und die überwiegende Mehrheit unserer Daten stammt von Kameras, die auf das Plasma gerichtet sind, mit bestimmten Filtern vor den Linsen, um nur bestimmte Teile des Lichtspektrums zu betrachten.
Um die Daten zu reproduzieren, gibt es zwei Schritte; Zuerst müssen wir das Licht modellieren, das vom Plasma auf dem Netz kommt, dann müssen wir dieses Licht zurück zu einem Kamerabild modellieren.
Die Modellierung des Lichts, das aus dem Plasma kommt, hängt leider von den effektiven Geschwindigkeitskoeffizienten ab, die angeben, wie viel Licht von verschiedenen Prozessen in Anbetracht der Felder emittiert wird. Diese Raten werden von einigen teuren numerischen Modellen vorhergesagt, daher müssen wir ihre Ausgabe in Gittern speichern und dann interpolieren, um Werte nachzuschlagen. Die Ratenfunktionsdaten werden immer nur einmal berechnet - wir speichern sie und erstellen dann einen Spline daraus, wenn der Code gestartet wird, und dieser Spline wird dann für alle Funktionsauswertungen verwendet.
Angenommen, und sind die Ratenfunktionen (die wir durch Interpolation auswerten), dann ist die Emission am -ten Scheitelpunkt des Netzes gegeben durch
wobei die 3 Felder sind, die wir auf dem Netz modellieren. Das Ermitteln des Emissionsvektors für ein Kamerabild ist einfach. Es handelt sich lediglich um eine Multiplikation mit einer Matrix die codiert, durch welche Teile des Netzes jedes Kamerapixel schaut.
Da die Fehler Gauß'sch sind, ist die Log-Wahrscheinlichkeit für diese bestimmte Kamera dann
Dabei ist die Kameradaten. Die gesamte Log-Wahrscheinlichkeit ist eine Summe von 4 der obigen Ausdrücke, jedoch für verschiedene Kameras, die alle unterschiedliche Versionen der da sie unterschiedliche Teile des Lichtspektrums betrachten.
Vorheriges Beispiel
Wir haben verschiedene Prioritäten, die effektiv nur bestimmte Ober- und Untergrenzen für verschiedene Größen festlegen, aber diese neigen dazu, nicht zu stark auf das Problem einzuwirken. Wir haben einen Prior, der stark wirkt und die Glättung vom Laplace-Typ effektiv auf die Felder anwendet. Es hat auch eine Gaußsche Form: