Wann sollte man aufhören, ein Modell zu verfeinern?

Ich habe in den letzten 3 Jahren Statistiken aus vielen Büchern studiert und dank dieser Seite viel gelernt. Dennoch bleibt für mich eine grundlegende Frage offen. Es mag eine sehr einfache oder eine sehr schwierige Antwort geben, aber ich weiß, dass es ein tiefes Verständnis der Statistik erfordert.

Bei der Anpassung eines Modells an Daten, sei es ein frequentistischer oder ein bayesianischer Ansatz, schlagen wir ein Modell vor, das aus einer funktionalen Form für die Wahrscheinlichkeit, einem Prior oder einem Kernel (nicht parametrisch) usw. bestehen kann. Das Problem ist ein beliebiges Modell passt eine Probe mit einem gewissen Maß an Güte. Man kann immer ein besseres oder schlechteres Modell finden, verglichen mit dem, was gerade vorliegt. Irgendwann hören wir auf, Schlussfolgerungen zu ziehen, verallgemeinern auf Populationsparameter, geben Konfidenzintervalle an, berechnen das Risiko usw. Daher hängt jede Schlussfolgerung, die wir ziehen, immer von dem Modell ab, mit dem wir uns entschieden haben. Selbst wenn wir Tools zum Schätzen der erwarteten KL-Entfernung verwenden, wie z. B. AIC, MDL usw., sagt dies nichts darüber aus, wo wir absolut stehen, sondern verbessert lediglich unsere Schätzung auf relativer Basis.

Angenommen, wir möchten eine schrittweise Vorgehensweise definieren, die beim Erstellen von Modellen auf alle Datensätze angewendet werden soll. Was sollten wir als Stoppregel festlegen? Können wir zumindest den Modellfehler einschränken, der uns einen objektiven Haltepunkt gibt (dies ist anders als das Beenden des Trainings mit einer Validierungsprobe, da es auch einen Haltepunkt innerhalb der bewerteten Modellklasse gibt, anstatt den wahren DGP)?

modeling inference aic

— Cagdas Ozgenc
quelle

Ich denke, Sie sollten der Frage andere Tags als nur Inferenz hinzufügen, z. B. einige Modellierungs-Tags und die Modellauswahl. Ich denke, dass dies relevant sein könnte, ist auch Occams Rasiermesser . In diesem Artikel wird auch die Bayes'sche Modellierung erörtert.

— Gumeo

Manchmal erstellen Sie ein bestimmtes Modell, weil es sich besonders gut zum Schätzen bestimmter Parameter eignet, und nicht, weil Sie der Meinung sind, dass die Gesamtverteilung genau ist (siehe M-Schätzung, verallgemeinerte Schätzung von Gleichungen). Sie sind vielleicht besser dran mit einem falschen Modell, das jedoch nicht so leicht durch Rauschen beeinflusst wird (für Ihren interessierenden Parameter). Im Allgemeinen siehe Robuste Schätzung.

Sehr interessante Frage. Nur ein Kommentar, der zumindest im Bayes'schen Kontext die Frage aufwirft, über die plausible Teilmenge von Modellen zu mitteln, anstatt eine zu wählen. Ich bin mir nicht sicher, wie ich die Frage des OP theoretisch beantworten könnte, und ich denke, praktisch hängt es davon ab, ob das ausgewählte Modell für das Problem, das wir zu lösen versuchen, gut genug ist. Vielleicht brauchen wir eine Modellauswahl mit MCMC-Methoden oder so ähnlich! Ich kann mir einen verschachtelten MCMC-Ansatz vorstellen ...

— Luca

@Luca Dies wurde getan. Das Problem bleibt jedoch bestehen, da der vom Bayes'schen Prior definierte Raum der Modelle das wahre Modell enthalten kann oder nicht. Auch wenn der Modellfehler noch vorhanden ist, ist dies der Fehler des Durchschnittsmodells in Bezug auf den wahren DGP.

— Cagdas Ozgenc

+1 für die Frage. Zum großen Teil handelt es sich um philosophische oder erkenntnistheoretische Anliegen, dh nicht nur "Was wissen wir und woher wissen wir das ?", Sondern "Was können wir wissen und wie können wir das wissen?" Wie der Physiker Richard Feynman sagte: "Es ist unmöglich, eine Antwort zu finden, die sich eines Tages nicht als falsch herausstellt." Mit anderen Worten, wenn Sie nicht religiös sind, gibt es begründete Zweifel, ob es eine eindeutige, ewige Grundwahrheit gibt, auf der etwas verankert werden kann. .

— Mike Hunter

Antworten:

Leider ist diese Frage nicht eine gute Antwort hat. Sie können das beste Modell auswählen, basierend auf der Tatsache, dass es den absoluten Fehler, den quadratischen Fehler und die Wahrscheinlichkeit minimiert, wobei einige Kriterien verwendet werden, die die Wahrscheinlichkeit (z. B. AIC, BIC) benachteiligen, um nur einige der häufigsten Auswahlmöglichkeiten zu nennen. Das Problem ist, dass Sie mit keinem dieser Kriterien das objektiv beste Modell auswählen können, sondern das beste, aus dem Sie es verglichen haben. Ein weiteres Problem ist, dass Sie bei der Optimierung immer ein lokales Maximum / Minimum erreichen können. Ein weiteres Problem ist, dass Ihre Auswahl der Kriterien für die Modellauswahl subjektiv ist . In vielen Fällen treffen Sie bewusst oder halbbewusst eine Entscheidung über das, woran Sie interessiert sind, und wählen darauf basierend die Kriterien aus. Zum BeispielDie Verwendung von BIC anstelle von AIC führt zu sparsameren Modellen mit weniger Parametern. Normalerweise interessieren Sie sich für die Modellierung für sparsamere Modelle, die zu einigen allgemeinen Schlussfolgerungen über das Universum führen, während dies für die Vorhersage nicht unbedingt erforderlich ist. Manchmal kann ein komplizierteres Modell eine bessere Vorhersagekraft haben (muss es aber nicht und oft) Es tut nicht). In noch anderen Fällen werden aus praktischen Gründen manchmal kompliziertere Modelle bevorzugt , beispielsweise beim Schätzen des Bayes'schen Modells mit MCMC, wobei sich Modelle mit hierarchischen Hyperprioren in der Simulation besser verhalten können als die einfacheren. Auf der anderen Seite befürchten wir generell eine Überanpassungund das einfachere Modell hat das geringere Risiko einer Überanpassung, so dass es eine sicherere Wahl ist. Ein gutes Beispiel dafür ist eine automatische schrittweise Modellauswahl , die im Allgemeinen nicht empfohlen wird, da sie leicht zu überangepassten und voreingenommenen Schätzungen führt. Es gibt auch ein philosophisches Argument, Occams Rasiermesser , dass das einfachste Modell das bevorzugte ist. Beachten Sie auch, dass wir hier den Vergleich verschiedener Modelle diskutieren, während es in realen Situationen auch so sein kann, dass die Verwendung verschiedener statistischer Tools zu unterschiedlichen Ergebnissen führen kann - es gibt also eine zusätzliche Ebene bei der Auswahl der Methode!

All dies führt zu einer traurigen, aber unterhaltsamen Tatsache, dass wir niemals sicher sein können. Wir beginnen mit Unsicherheit, wenden Methoden an, um damit umzugehen, und wir enden mit Unsicherheit. Das mag paradox sein, aber denken Sie daran, dass wir Statistiken verwenden, weil wir glauben, dass die Welt unsicher und wahrscheinlich ist (andernfalls würden wir eine Karriere von Propheten wählen). Wie könnten wir also möglicherweise zu unterschiedlichen Schlussfolgerungen kommen? Es gibt keine objektive Stoppregel, es gibt mehrere mögliche Modelle, alle sind falsch (entschuldigen Sie das Klischee!), Weil sie versuchen, die komplizierte (sich ständig ändernde und probabilistische) Realität zu vereinfachen. Wir finden einige von ihnen für unsere Zwecke nützlicher als andere, und manchmal tun wir das auch $\theta$ $\mu$

Sie können noch tiefer gehen und herausfinden, dass es in der Realität keine "Wahrscheinlichkeit" gibt - es ist nur eine Annäherung an die Unsicherheit um uns herum und es gibt auch alternative Näherungsmöglichkeiten, wie z. B. Fuzzy - Logik (siehe Kosko, 1993) zur Diskussion). Selbst die grundlegenden Werkzeuge und Theoreme, auf denen unsere Methoden basieren, sind Annäherungen und nicht die einzigen, die möglich sind. Wir können in einer solchen Situation einfach nicht sicher sein.

Die Stopp-Regel, nach der Sie suchen, ist immer problemspezifisch und subjektiv, dh auf der Grundlage eines sogenannten professionellen Urteils. Übrigens gibt es viele Forschungsbeispiele, die gezeigt haben, dass Fachleute oft nicht besser und manchmal sogar schlechter beurteilt werden als Laien (z. B. wiederbelebt in Zeitungen und Büchern von Daniel Kahneman ), während sie eher zu Selbstüberschätzung neigen (das ist tatsächlich so) ein Argument, warum wir nicht versuchen sollten, "sicher" über unsere Modelle zu sein).

Kosko, B. (1993). Fuzzy-Denken: Die neue Wissenschaft der Fuzzy-Logik. New York: Hyperion.

— Tim
quelle

μ

$\mu$

Die Behauptung ist wahr, wenn ihre Annahmen erfüllt sind (z. B. erhalten wir eine feste Stichprobe, was in der Praxis wahr ist). Aus dem Zusammenhang gerissen und mit Verstößen gegen Annahmen kann es natürlich falsch gemacht werden.

— Richard Hardy

@CagdasOzgenc ist jemand, der über eine Methode verfügt, um ein Modell zu erstellen, das die Realität perfekt widerspiegelt, ohne die Regel zu stoppen oder den Modellfehler zu messen - das Modell ist per Definition perfekt. Wenn Sie die Regeln zum Erstellen eines solchen Modells kennen, besteht keine Notwendigkeit, die Abweichung Ihres Modells von der tatsächlichen DGP zu messen, da die Kenntnis der tatsächlichen DGP nur diese Kenntnisse nutzt. Handelt es sich bei Ihrem Modell hingegen um eine Vereinfachung auf der Grundlage Ihrer Daten, gelten die allgemeinen Statistikregeln, wie in meiner Antwort beschrieben.

— Tim

@CagdasOzgenc noch, wenn Sie wissen , die „Wahrheit“, als die Stoppregel ist einfach: Stopp , wenn Ihr Modell der „Wahrheit“ paßt. Wenn Sie nicht wissen, was die Wahrheit ist, dann "sind alle Modelle [gleichermaßen] falsch ..." und Sie müssen Statistiken verwenden. Wenn Sie es nicht wissen, können Sie die Abweichung nicht messen.

— Tim

@Luca Es bedeutet sehr viel, aber es ist abstrakt.

— Tim

Es gibt ein ganzes Feld, das als nichtparametrische Statistik bezeichnet wird und die Verwendung starker Modelle vermeidet. Ihre Besorgnis über passende Modelle an sich ist jedoch berechtigt. Leider gibt es kein mechanisches Verfahren zum Anpassen von Modellen, das allgemein als "optimal" akzeptiert würde. Wenn Sie beispielsweise das Modell definieren möchten, das die Wahrscheinlichkeit Ihrer Daten maximiert, werden Sie zur empirischen Verteilungsfunktion geführt.

Normalerweise haben wir jedoch einige Hintergrundannahmen und -einschränkungen, z. B. stetig mit endlichen ersten und zweiten Momenten. In solchen Fällen besteht ein Ansatz darin, ein Maß wie Shannon Differential Entropy zu wählen und es über den Raum kontinuierlicher Verteilungen zu maximieren, die Ihre Randbedingungen erfüllen.

Ich möchte darauf hinweisen, dass Sie, wenn Sie nicht nur den ECDF als Standard verwenden möchten, über die Daten hinaus Annahmen hinzufügen müssen, um dorthin zu gelangen, und dies erfordert Fachkenntnisse. Und ja , das gefürchtete ..... fachliche Urteil

Gibt es also einen garantierten Haltepunkt für die Modellierung? Die Antwort lautet nein. Gibt es einen Ort, an dem man gut genug anhalten kann? Im Allgemeinen ja, aber dieser Punkt hängt nicht nur von den Daten und einigen statistischen Desideraten ab. In der Regel werden Sie das Risiko unterschiedlicher Fehler, die technischen Einschränkungen bei der Implementierung der Modelle und die Robustheit ihrer Schätzungen berücksichtigen. etc.

Wie @Luca hervorhob, können Sie immer einen Durchschnitt über eine Klasse von Modellen bilden, aber wie Sie zu Recht betont haben, wird dies die Frage nur auf die nächste Ebene von Hyperparametern treiben. Leider scheinen wir in einer unendlich vielschichtigen Zwiebel zu leben ... in beide Richtungen!