Was bedeutet "Alle Modelle sind falsch, aber einige sind nützlich"?


76

"Im Grunde sind alle Modelle falsch, aber einige sind nützlich."

--- Box, George EP; Norman R. Draper (1987). Empirische Modellbildung und Response-Oberflächen, p. 424, Wiley. ISBN 0471810339.

Was genau bedeutet der obige Satz?


13
Auf das gleiche Buch wurde schon früher hingewiesen: Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.Vielleicht ist das hilfreicher.
usεr11852

Antworten:


101

Ich denke, seine Bedeutung lässt sich am besten analysieren, indem man es in zwei Teilen betrachtet:

"Alle Modelle sind falsch", das heißt, jedes Modell ist falsch, weil es eine Vereinfachung der Realität ist. Einige Modelle, insbesondere in den "harten" Wissenschaften, liegen nur wenig falsch. Sie ignorieren Dinge wie Reibung oder die Gravitationswirkung winziger Körper. Andere Modelle sind viel falsch - sie ignorieren größere Dinge. In den Sozialwissenschaften ignorieren wir viel.

"Aber einige sind nützlich" - Vereinfachungen der Realität können sehr nützlich sein. Sie können uns helfen, das Universum und all seine verschiedenen Komponenten zu erklären, vorherzusagen und zu verstehen.

Das gilt nicht nur für die Statistik! Karten sind eine Art Modell; Sie liegen falsch. Aber gute Karten sind sehr nützlich. Beispiele für andere nützliche, aber falsche Modelle gibt es zuhauf.


20
+1 Weil ich die Analogie der Karten mag. Ich werde es in Zukunft verwenden!
usεr11852

4
Viele Modelle in den "harten" Wissenschaften sind auch ziemlich weit weg (gestern habe ich ein Seminar besucht, in dem Messungen durchgeführt wurden, bei denen das Modell innerhalb der Fehlerleiste lag, die Fehlerleiste jedoch zwei Größenordnungen betrug).
Gerrit

7
+1. Ich denke, Ihr Schlüsselsatz lautet "Jedes Modell ist falsch, weil es eine Vereinfachung der Realität ist". Die Leute vergessen dies oft - zum Beispiel bei naiven Wirtschaftskritikern (ich habe meine eigenen Kritikpunkte, aber sie müssen ausgefeilter sein als nur "die Realität ist komplexer als Ihr Modell"). Wenn wir es nicht vereinfacht haben, haben Sie eine rohe Realität, die für uns zu komplex ist, um sie zu verstehen. Wir müssen es also vereinfachen, um einen Einblick zu erhalten.
Peter Ellis

13
Die Fantasie einer perfekten Karte im Maßstab 1: 1 wurde von vielen Autoren genutzt, darunter Lewis Carroll, Jorge Luis Borges und Umberto Eco. Es würde eigentlich keinen Sinn machen, da es nur kompliziert wäre, wie der Bereich, den es abbildet, und nicht einfacher zu verstehen ist (ganz zu schweigen von der Unbeholfenheit, ihn zu entfalten und zum Lesen auszulegen).
Nick Cox

2
Vielleicht fügen Sie können auch , dass ein Modell sein , hat etwas falsch, denn sonst wäre es nicht verallgemeinern und wäre somit nicht anwendbar anderswo. Es gibt einige Antworten, die dies weiter unten sagen. Aber es gibt jetzt zu viele Antworten, um sie alle zu lesen.
Zick-Zack

9

Dies bedeutet, dass nützliche Erkenntnisse aus Modellen gewonnen werden können, die die von ihnen modellierten Phänomene nicht perfekt abbilden.

Ein statistisches Modell ist eine Beschreibung eines Systems unter Verwendung mathematischer Konzepte. Als solches fügen Sie in vielen Fällen eine bestimmte Abstraktionsebene hinzu, um Ihre Inferenzprozedur zu vereinfachen (z. B. Normalität von Messfehlern, zusammengesetzte Symmetrie in Korrelationsstrukturen usw.). Es ist fast unmöglich, dass ein einzelnes Modell ein Phänomen der realen Welt perfekt beschreibt, wenn wir eine subjektive Sicht der Welt haben (unser sensorisches System ist nicht perfekt). Trotzdem geschieht eine erfolgreiche statistische Inferenz, da unsere Welt einen gewissen Grad an Konsistenz aufweist, den wir ausnutzen. Daher erweisen sich unsere fast immer falschen Modelle als nützlich .

(Ich bin mir sicher, dass Sie bald eine kühne Antwort bekommen werden, aber ich habe versucht, mich in dieser Sache kurz zu fassen!)


Können wir sagen, dass diese nützlichen Modelle ungefähre Lösungen darstellen?
GPUGUY

2
@ gpuguy: Sicher kannst du. Um John Tukey zu zitieren: An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.(Ich
finde JTs

6
"Weitaus besser eine ungefähre Antwort auf die richtige Frage, die oft vage ist, als eine genaue Antwort auf die falsche Frage, die immer präzise formuliert werden kann." John W. Tukey 1962 Die Zukunft der Datenanalyse. Annals of Mathematical Statistics 33: 1-67 (siehe Seiten 13-14) Zweifellos hat er zu anderen Zeiten ähnliche Dinge gesagt, aber das ist die übliche Quelle.
Nick Cox

Ich habe das Zitat direkt aus dem Zitat-Thread des jeweiligen Lebenslaufs übernommen.
usεr11852

6
Ich habe meine aus der Originalveröffentlichung kopiert.
Nick Cox

6

Ich fand diesen JSA-Vortrag 2009 von Thad Tarpey nützlich, um eine Erklärung und einen Kommentar zur Box-Passage zu liefern. Er argumentiert, dass wir, wenn wir Modelle als Annäherungen an die Wahrheit betrachten, genauso gut alle Modelle als richtig bezeichnen könnten.

Hier ist die Zusammenfassung:

Studierende der Statistik werden häufig mit dem berühmten Zitat von George Box bekannt gemacht: „Alle Modelle sind falsch, einige sind nützlich.“ In diesem Vortrag argumentiere ich, dass dieses Zitat zwar nützlich, aber falsch ist. Eine andere und positivere Perspektive besteht darin, anzuerkennen, dass ein Modell lediglich ein Mittel zum Extrahieren von Informationen von Interesse aus Daten ist. Die Wahrheit ist unendlich komplex und ein Modell ist nur eine Annäherung an die Wahrheit. Wenn die Annäherung schlecht oder irreführend ist, ist das Modell unbrauchbar. In diesem Vortrag gebe ich Beispiele für korrekte Modelle, die keine echten Modelle sind. Ich illustriere, wie der Begriff eines „falschen“ Modells zu falschen Schlussfolgerungen führen kann.


3

Für mich liegt die eigentliche Einsicht in folgendem Aspekt:

Ein Modell muss nicht korrekt sein, um nützlich zu sein.

Leider wird in vielen Wissenschaften oft vergessen, dass Modelle nicht unbedingt exakte Darstellungen der Realität sein müssen, um neue Entdeckungen und Vorhersagen zu ermöglichen!

Verschwenden Sie also keine Zeit damit, ein kompliziertes Modell zu erstellen, das genaue Messungen einer Vielzahl von Variablen erfordert. Das wahre Genie erfindet ein einfaches Modell, das die Arbeit erledigt.


3

Ein Modell kann keine 100% genauen Vorhersagen liefern, wenn die Ergebnisse zufällig sind. Wenn es keine Unsicherheit, keine Zufälligkeit und keinen Fehler gäbe, würde dies eher als eine Tatsache denn als ein Modell angesehen. Das erste ist sehr wichtig, da Modelle häufig zur Modellierung der Erwartungen von Ereignissen verwendet werden, die nicht eingetreten sind. Dies garantiert beinahe, dass hinsichtlich der tatsächlichen Ereignisse eine gewisse Unsicherheit besteht.

Wenn perfekte Informationen vorliegen, ist es theoretisch möglich, ein Modell zu erstellen, das perfekte Vorhersagen für solche genau bekannten Ereignisse liefert. Selbst unter diesen unwahrscheinlichen Umständen kann ein solches Modell so komplex sein, dass es rechnerisch nicht umsetzbar ist, und es kann nur zu einem bestimmten Zeitpunkt genau sein, wenn sich andere Faktoren ändern, wie sich Werte mit Ereignissen ändern.

Da die meisten realen Daten Unsicherheiten und Zufälligkeiten enthalten, sind die Bemühungen, ein perfektes Modell zu erhalten, vergeblich. Stattdessen ist es wertvoller, ein ausreichend genaues Modell zu erhalten, das einfach genug ist, um sowohl hinsichtlich der Daten als auch der für seine Verwendung erforderlichen Berechnung verwendet werden zu können. Obwohl bekannt ist, dass diese Modelle unvollkommen sind, sind einige dieser Mängel wohlbekannt und können bei der Entscheidungsfindung auf der Grundlage der Modelle berücksichtigt werden.

Einfachere Modelle können unvollkommen sein, aber sie sind auch einfacher zu überlegen, miteinander zu vergleichen und einfacher zu bearbeiten, da sie wahrscheinlich weniger rechenintensiv sind.


3

Wenn ich darf, kann nur ein Kommentar mehr nützlich sein. Die Version der Prase, die ich bevorzuge, ist

(...) Alle Modelle sind Näherungswerte. Grundsätzlich sind alle Modelle falsch, aber einige sind nützlich (...)

entnommen aus Response Surfaces, Mixtures und Ridge Analyzes von Box and Draper (2007, S. 414, Wiley). Wenn man sich das erweiterte Zitat ansieht, ist klarer, was Box bedeutete: Bei der statistischen Modellierung geht es um die Annäherung an die Realität, und die Annäherung ist niemals exakt. Es geht also darum, die am besten geeignete Annäherung zu finden. Was für Ihren Zweck angemessen ist, ist eine subjektive Sache, weshalb es nicht eines der Modelle ist, das nützlich ist, sondern möglicherweise einige von ihnen, abhängig vom Zweck der Modellierung.


3

George Box verwendete die zitierte Phase, um den folgenden Abschnitt in ein Buch einzuführen, da niemand hinzugefügt hat. Ich glaube, er macht den besten Job, um zu erklären, was er meinte:

PV=RTPVTR

Für ein solches Modell muss nicht die Frage "Ist das Modell wahr?" Gestellt werden. Wenn "Wahrheit" die "ganze Wahrheit" sein soll, muss die Antwort "Nein" sein. Die einzige Frage von Interesse ist "Leuchtet das Modell und ist es nützlich?".

Box, GEP (1979), "Robustheit in der Strategie des wissenschaftlichen Modellbaus", in Launer, RL; Wilkinson, GN, Robustness in Statistics , Academic Press, S. 201–236.


2

Sie könnten es so denken. Die maximale Komplexität (dh Entropie) eines Objekts folgt einer Form der Bekenstein-Bindung :

ich2πREcln2

ER

Das ist in den meisten Fällen eine große Zahl:

2.58991·1042Ω=2ich107.79640·1041

Möchten Sie also "die beste Karte", dh das Territorium selbst, mit allen Wellengleichungen für alle Partikel in jeder Zelle verwenden? Absolut nicht. Dies wäre nicht nur eine Computerkatastrophe, sondern Sie würden auch Dinge modellieren, die im Wesentlichen nichts mit dem zu tun haben, was Sie interessiert. Wenn Sie beispielsweise nur feststellen möchten, ob ich wach bin oder nicht, müssen Sie nicht wissen, was das Elektron # 32458 im Neuron # 844030 Ribosom # 2305-Molekül # 2 tut. Wenn Sie das nicht modellieren, ist Ihr Modell zwar "falsch", aber wenn Sie feststellen können, ob ich wach bin oder nicht, ist Ihr Modell auf jeden Fall nützlich.


2

Ich denke Peter und user11852 haben tolle Antworten gegeben. Ich würde auch hinzufügen (durch Verneinung), dass ein Modell, wenn es wirklich gut wäre, wahrscheinlich wegen Überanpassung unbrauchbar wäre (daher nicht verallgemeinerbar).


2
+1 für den Punkt der Überanpassung. Algorithmen wie Naive Bayes und die lineare Diskriminanzanalyse funktionieren häufig sehr gut, auch wenn Sie wissen, dass das zugrunde liegende Modell nicht korrekt ist (z. B. Spam-Filter), da für die Schätzung der Parameter weniger Daten benötigt werden.
Dikran Marsupial

1

Meine saure Interpretation lautet: Zu einfach und arrogant wäre es, zu glauben, dass ein mathematisches Modell genau alle Faktoren und ihre Wechselwirkungen beschreibt, die ein interessierendes Phänomen bestimmen. Wir wissen nicht einmal, ob die Logik, die wir verwenden, ausreicht, um unser Universum zu verstehen. Einige mathematische Modelle stellen jedoch eine hinreichende Annäherung (im Sinne der wissenschaftlichen Methode) dar, die nützlich ist, um Schlussfolgerungen über ein solches Phänomen zu ziehen.


1

Als Astrostatist (vielleicht eine seltene Rasse) finde ich den Ruhm von Box 'Spruch bedauerlich. In den physikalischen Wissenschaften besteht oft ein starker Konsens über das Verständnis der Prozesse, die einem beobachteten Phänomen zugrunde liegen, und diese Prozesse können oft durch mathematische Modelle ausgedrückt werden, die sich aus den Gesetzen der Gravitation, der Quantenmechanik, der Thermodynamik usw. ergeben. Die statistischen Ziele sind zu schätzen Die am besten geeigneten Modelleigenschaften sowie die Modellauswahl und -validierung. Ein dramatischer aktueller Fall ergab sich aus der Veröffentlichung von Beiträgen des Planck-Satelliten der Europäischen Weltraumorganisation im März 2013Messungen des kosmischen Mikrowellenhintergrunds, die überzeugend ein einfaches 6-Parameter-LambdaCDM-Modell für den Urknall aufstellen. Ich bezweifle, dass das Diktum von Box innerhalb des breiten Spektrums fortgeschrittener statistischer Methoden, die in diesen 29 Veröffentlichungen verwendet werden, Anwendung finden würde.


1

Ich habe die obige Antwort soeben umformuliert, indem ich Prozessmodelle als Schwerpunkt betrachtet habe. Die Aussage kann wie folgt interpretiert werden:

"Alle Modelle sind falsch", das heißt, jedes Modell ist falsch, weil es eine Vereinfachung der Realität ist. Einige Modelle liegen nur wenig falsch. Sie ignorieren einige Dinge, zum Beispiel: -> sich ändernde Anforderungen, -> den Abschluss des Projekts innerhalb der Frist zu ignorieren, -> das vom Kunden gewünschte Qualitätsniveau nicht zu berücksichtigen usw. Andere Modelle sind viel falsch - sie ignorieren größere Dinge. Klassische Software-Prozessmodelle ignorieren viel im Vergleich zu agilen Prozessmodellen, die weniger ignorieren.

"Aber einige sind nützlich" - Vereinfachungen der Realität können sehr nützlich sein. Sie können uns helfen, das Gesamtprojekt und all seine verschiedenen Komponenten zu erklären, vorherzusagen und zu verstehen. Modelle werden verwendet, weil ihre Funktionen den meisten Softwareentwicklungsprogrammen entsprechen.


0

Ich möchte eine andere Interpretation des Begriffs "nützlich" geben. Wahrscheinlich dachte nicht die eine Box darüber nach.

Wenn Sie Entscheidungen treffen müssen und dafür alle Informationen schließlich verwendet werden, müssen Sie Ihren Erfolg in irgendeiner Form messen. Wenn von Entscheidungen mit unsicheren Informationen die Rede ist, wird diese Maßnahme häufig als Nutzen bezeichnet.

Wir können uns also nützliche Modelle vorstellen, die es uns ermöglichen, fundiertere Entscheidungen zu treffen. um unsere Ziele effektiver zu erreichen.

Dies fügt zusätzlich zu den üblichen Kriterien eine weitere Dimension hinzu, beispielsweise die Fähigkeit eines Modells, etwas richtig vorherzusagen: Es ermöglicht uns, die verschiedenen Aspekte, um die es in einem Modell geht, gegeneinander abzuwägen.


-2

"Alle Modelle sind falsch, aber einige sind nützlich". Vielleicht heißt das: Wir sollten mit dem, was wir wissen, unser Bestes geben + nach neuem Lernen suchen?


4
(-1) Können Sie einen Hinweis darauf geben, dass dies mit GEP Box gemeint ist? Wie Sie aus den anderen Antworten ersehen können, meinte er etwas ganz anderes.
Tim

Das OP nimmt das Zitat vielleicht auf und legt es neu aus. Ich stimme Tim zu, dass Box mehr oder weniger gesagt hat, das Modell nicht als exakte Interpretation der Realität zu verstehen, sondern zu erkennen, dass einige Modelle die Daten gut beschreiben können.
Michael Chernick
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.