Regression und maschinelles Lernen werden in den Naturwissenschaften verwendet, um Hypothesen zu testen, Parameter zu schätzen und Vorhersagen zu treffen, indem Modelle an Daten angepasst werden. Wenn ich jedoch ein A-priori- Modell habe, möchte ich keine Anpassung vornehmen - zum Beispiel ein Modell eines deterministischen physikalischen Systems, das aus ersten Prinzipien berechnet wird. Ich möchte einfach nur wissen, wie gut mein Modell mit den Daten übereinstimmt, und dann verstehen, welche Teile des Modells wesentlich zur Übereinstimmung beitragen. Könnte mich jemand auf einen statistisch strengen Weg hinweisen, dies zu tun?
Nehmen wir genauer an, ich habe ein physikalisches System, für das ich eine abhängige Variable ( reicht von 1 bis , die Stichprobengröße) unter verschiedenen Bedingungen gemessen habe , die durch drei unabhängige Variablen , und x_ {3, i} . Obwohl das reale System, das die Daten generiert hat, kompliziert ist, habe ich einige vereinfachende Annahmen getroffen, um ein theoretisches Modell f für das System abzuleiten , so dass
,
Dabei ist eine nichtlineare (und nicht linearisierbare) Funktion der unabhängigen Variablen und die Differenz zwischen den vom Modell vorhergesagten und den gemessenen Werten. ist vollständig vorgegeben; Es erfolgt keine Anpassung und es werden keine Parameter geschätzt. Mein erstes Ziel ist es festzustellen, ob ein vernünftiges Modell für den Prozess ist, der die gemessenen Werte .
Ich habe auch vereinfachte Modelle und , die in verschachtelt sind (falls dies in diesem Fall wichtig ist). Mein zweites Ziel ist es festzustellen, ob signifikant besser mit den Daten übereinstimmt als oder , was darauf hindeutet, dass die Merkmale, die das Modell von den Modellen und , eine wichtige Rolle in dem Prozess spielen, der erzeugt .
Ideen bisher
Wenn es eine Möglichkeit gäbe, die Anzahl der Parameter oder die Freiheitsgrade für mein mathematisches Modell zu bestimmen, könnten möglicherweise vorhandene Verfahren wie ein Likelihood-Ratio-Test oder ein AIC-Vergleich verwendet werden. Angesichts der nichtlinearen Form von und des Fehlens offensichtlicher Parameter bin ich mir jedoch nicht sicher, ob es sinnvoll ist, Parameter zuzuweisen oder anzunehmen, was einen Freiheitsgrad ausmacht.
Ich habe gelesen, dass Anpassungsgütemessungen wie der Bestimmungskoeffizient ( ) verwendet werden können, um die Modellleistung zu vergleichen. Mir ist jedoch nicht klar, wie hoch der Schwellenwert für einen signifikanten Unterschied zwischen -Werten sein könnte. Da ich das Modell nicht an die Daten anpasse, ist der Mittelwert der Residuen nicht Null und kann für jedes Modell unterschiedlich sein. Ein gut passendes Modell, das dazu neigt, die Daten zu unterschätzen, könnte daher einen so schlechten Wert von wie ein Modell, das unvoreingenommen, aber schlecht mit den Daten übereinstimmt.
Ich habe auch ein wenig über Anpassungstests gelesen (z. B. Anderson-Darling), aber da Statistik nicht mein Fachgebiet ist, bin ich mir nicht sicher, wie gut diese Art von Test zu meinem Zweck passt. Jede Anleitung wäre dankbar.
f
vollständig vorgegeben ist. Es ist wie eine Black Box, die die Antwort y
aus den Eingabevariablen erzeugt, und ich möchte wissen, wie gut sie im Vergleich zu konkurrierenden Black Boxes funktioniert. In einer analogen Situation könnte versucht werden, die Übereinstimmung zwischen der Ausgabe einer numerischen Simulation und den im realen physikalischen System durchgeführten Messungen zu bewerten.
f()
, die aus einer Anpassung an die Daten ermittelt werden müssen, oder ist die Funktionf()
vollständig vorgegeben?