Antworten:
Ich denke, seine Bedeutung lässt sich am besten analysieren, indem man es in zwei Teilen betrachtet:
"Alle Modelle sind falsch", das heißt, jedes Modell ist falsch, weil es eine Vereinfachung der Realität ist. Einige Modelle, insbesondere in den "harten" Wissenschaften, liegen nur wenig falsch. Sie ignorieren Dinge wie Reibung oder die Gravitationswirkung winziger Körper. Andere Modelle sind viel falsch - sie ignorieren größere Dinge. In den Sozialwissenschaften ignorieren wir viel.
"Aber einige sind nützlich" - Vereinfachungen der Realität können sehr nützlich sein. Sie können uns helfen, das Universum und all seine verschiedenen Komponenten zu erklären, vorherzusagen und zu verstehen.
Das gilt nicht nur für die Statistik! Karten sind eine Art Modell; Sie liegen falsch. Aber gute Karten sind sehr nützlich. Beispiele für andere nützliche, aber falsche Modelle gibt es zuhauf.
Dies bedeutet, dass nützliche Erkenntnisse aus Modellen gewonnen werden können, die die von ihnen modellierten Phänomene nicht perfekt abbilden.
Ein statistisches Modell ist eine Beschreibung eines Systems unter Verwendung mathematischer Konzepte. Als solches fügen Sie in vielen Fällen eine bestimmte Abstraktionsebene hinzu, um Ihre Inferenzprozedur zu vereinfachen (z. B. Normalität von Messfehlern, zusammengesetzte Symmetrie in Korrelationsstrukturen usw.). Es ist fast unmöglich, dass ein einzelnes Modell ein Phänomen der realen Welt perfekt beschreibt, wenn wir eine subjektive Sicht der Welt haben (unser sensorisches System ist nicht perfekt). Trotzdem geschieht eine erfolgreiche statistische Inferenz, da unsere Welt einen gewissen Grad an Konsistenz aufweist, den wir ausnutzen. Daher erweisen sich unsere fast immer falschen Modelle als nützlich .
(Ich bin mir sicher, dass Sie bald eine kühne Antwort bekommen werden, aber ich habe versucht, mich in dieser Sache kurz zu fassen!)
An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.
(Ich
Ich fand diesen JSA-Vortrag 2009 von Thad Tarpey nützlich, um eine Erklärung und einen Kommentar zur Box-Passage zu liefern. Er argumentiert, dass wir, wenn wir Modelle als Annäherungen an die Wahrheit betrachten, genauso gut alle Modelle als richtig bezeichnen könnten.
Hier ist die Zusammenfassung:
Studierende der Statistik werden häufig mit dem berühmten Zitat von George Box bekannt gemacht: „Alle Modelle sind falsch, einige sind nützlich.“ In diesem Vortrag argumentiere ich, dass dieses Zitat zwar nützlich, aber falsch ist. Eine andere und positivere Perspektive besteht darin, anzuerkennen, dass ein Modell lediglich ein Mittel zum Extrahieren von Informationen von Interesse aus Daten ist. Die Wahrheit ist unendlich komplex und ein Modell ist nur eine Annäherung an die Wahrheit. Wenn die Annäherung schlecht oder irreführend ist, ist das Modell unbrauchbar. In diesem Vortrag gebe ich Beispiele für korrekte Modelle, die keine echten Modelle sind. Ich illustriere, wie der Begriff eines „falschen“ Modells zu falschen Schlussfolgerungen führen kann.
Für mich liegt die eigentliche Einsicht in folgendem Aspekt:
Ein Modell muss nicht korrekt sein, um nützlich zu sein.
Leider wird in vielen Wissenschaften oft vergessen, dass Modelle nicht unbedingt exakte Darstellungen der Realität sein müssen, um neue Entdeckungen und Vorhersagen zu ermöglichen!
Verschwenden Sie also keine Zeit damit, ein kompliziertes Modell zu erstellen, das genaue Messungen einer Vielzahl von Variablen erfordert. Das wahre Genie erfindet ein einfaches Modell, das die Arbeit erledigt.
Ein Modell kann keine 100% genauen Vorhersagen liefern, wenn die Ergebnisse zufällig sind. Wenn es keine Unsicherheit, keine Zufälligkeit und keinen Fehler gäbe, würde dies eher als eine Tatsache denn als ein Modell angesehen. Das erste ist sehr wichtig, da Modelle häufig zur Modellierung der Erwartungen von Ereignissen verwendet werden, die nicht eingetreten sind. Dies garantiert beinahe, dass hinsichtlich der tatsächlichen Ereignisse eine gewisse Unsicherheit besteht.
Wenn perfekte Informationen vorliegen, ist es theoretisch möglich, ein Modell zu erstellen, das perfekte Vorhersagen für solche genau bekannten Ereignisse liefert. Selbst unter diesen unwahrscheinlichen Umständen kann ein solches Modell so komplex sein, dass es rechnerisch nicht umsetzbar ist, und es kann nur zu einem bestimmten Zeitpunkt genau sein, wenn sich andere Faktoren ändern, wie sich Werte mit Ereignissen ändern.
Da die meisten realen Daten Unsicherheiten und Zufälligkeiten enthalten, sind die Bemühungen, ein perfektes Modell zu erhalten, vergeblich. Stattdessen ist es wertvoller, ein ausreichend genaues Modell zu erhalten, das einfach genug ist, um sowohl hinsichtlich der Daten als auch der für seine Verwendung erforderlichen Berechnung verwendet werden zu können. Obwohl bekannt ist, dass diese Modelle unvollkommen sind, sind einige dieser Mängel wohlbekannt und können bei der Entscheidungsfindung auf der Grundlage der Modelle berücksichtigt werden.
Einfachere Modelle können unvollkommen sein, aber sie sind auch einfacher zu überlegen, miteinander zu vergleichen und einfacher zu bearbeiten, da sie wahrscheinlich weniger rechenintensiv sind.
Wenn ich darf, kann nur ein Kommentar mehr nützlich sein. Die Version der Prase, die ich bevorzuge, ist
(...) Alle Modelle sind Näherungswerte. Grundsätzlich sind alle Modelle falsch, aber einige sind nützlich (...)
entnommen aus Response Surfaces, Mixtures und Ridge Analyzes von Box and Draper (2007, S. 414, Wiley). Wenn man sich das erweiterte Zitat ansieht, ist klarer, was Box bedeutete: Bei der statistischen Modellierung geht es um die Annäherung an die Realität, und die Annäherung ist niemals exakt. Es geht also darum, die am besten geeignete Annäherung zu finden. Was für Ihren Zweck angemessen ist, ist eine subjektive Sache, weshalb es nicht eines der Modelle ist, das nützlich ist, sondern möglicherweise einige von ihnen, abhängig vom Zweck der Modellierung.
George Box verwendete die zitierte Phase, um den folgenden Abschnitt in ein Buch einzuführen, da niemand hinzugefügt hat. Ich glaube, er macht den besten Job, um zu erklären, was er meinte:
Für ein solches Modell muss nicht die Frage "Ist das Modell wahr?" Gestellt werden. Wenn "Wahrheit" die "ganze Wahrheit" sein soll, muss die Antwort "Nein" sein. Die einzige Frage von Interesse ist "Leuchtet das Modell und ist es nützlich?".
Box, GEP (1979), "Robustheit in der Strategie des wissenschaftlichen Modellbaus", in Launer, RL; Wilkinson, GN, Robustness in Statistics , Academic Press, S. 201–236.
Sie könnten es so denken. Die maximale Komplexität (dh Entropie) eines Objekts folgt einer Form der Bekenstein-Bindung :
Das ist in den meisten Fällen eine große Zahl:
Möchten Sie also "die beste Karte", dh das Territorium selbst, mit allen Wellengleichungen für alle Partikel in jeder Zelle verwenden? Absolut nicht. Dies wäre nicht nur eine Computerkatastrophe, sondern Sie würden auch Dinge modellieren, die im Wesentlichen nichts mit dem zu tun haben, was Sie interessiert. Wenn Sie beispielsweise nur feststellen möchten, ob ich wach bin oder nicht, müssen Sie nicht wissen, was das Elektron # 32458 im Neuron # 844030 Ribosom # 2305-Molekül # 2 tut. Wenn Sie das nicht modellieren, ist Ihr Modell zwar "falsch", aber wenn Sie feststellen können, ob ich wach bin oder nicht, ist Ihr Modell auf jeden Fall nützlich.
Ich denke Peter und user11852 haben tolle Antworten gegeben. Ich würde auch hinzufügen (durch Verneinung), dass ein Modell, wenn es wirklich gut wäre, wahrscheinlich wegen Überanpassung unbrauchbar wäre (daher nicht verallgemeinerbar).
Meine saure Interpretation lautet: Zu einfach und arrogant wäre es, zu glauben, dass ein mathematisches Modell genau alle Faktoren und ihre Wechselwirkungen beschreibt, die ein interessierendes Phänomen bestimmen. Wir wissen nicht einmal, ob die Logik, die wir verwenden, ausreicht, um unser Universum zu verstehen. Einige mathematische Modelle stellen jedoch eine hinreichende Annäherung (im Sinne der wissenschaftlichen Methode) dar, die nützlich ist, um Schlussfolgerungen über ein solches Phänomen zu ziehen.
Als Astrostatist (vielleicht eine seltene Rasse) finde ich den Ruhm von Box 'Spruch bedauerlich. In den physikalischen Wissenschaften besteht oft ein starker Konsens über das Verständnis der Prozesse, die einem beobachteten Phänomen zugrunde liegen, und diese Prozesse können oft durch mathematische Modelle ausgedrückt werden, die sich aus den Gesetzen der Gravitation, der Quantenmechanik, der Thermodynamik usw. ergeben. Die statistischen Ziele sind zu schätzen Die am besten geeigneten Modelleigenschaften sowie die Modellauswahl und -validierung. Ein dramatischer aktueller Fall ergab sich aus der Veröffentlichung von Beiträgen des Planck-Satelliten der Europäischen Weltraumorganisation im März 2013Messungen des kosmischen Mikrowellenhintergrunds, die überzeugend ein einfaches 6-Parameter-LambdaCDM-Modell für den Urknall aufstellen. Ich bezweifle, dass das Diktum von Box innerhalb des breiten Spektrums fortgeschrittener statistischer Methoden, die in diesen 29 Veröffentlichungen verwendet werden, Anwendung finden würde.
Ich habe die obige Antwort soeben umformuliert, indem ich Prozessmodelle als Schwerpunkt betrachtet habe. Die Aussage kann wie folgt interpretiert werden:
"Alle Modelle sind falsch", das heißt, jedes Modell ist falsch, weil es eine Vereinfachung der Realität ist. Einige Modelle liegen nur wenig falsch. Sie ignorieren einige Dinge, zum Beispiel: -> sich ändernde Anforderungen, -> den Abschluss des Projekts innerhalb der Frist zu ignorieren, -> das vom Kunden gewünschte Qualitätsniveau nicht zu berücksichtigen usw. Andere Modelle sind viel falsch - sie ignorieren größere Dinge. Klassische Software-Prozessmodelle ignorieren viel im Vergleich zu agilen Prozessmodellen, die weniger ignorieren.
"Aber einige sind nützlich" - Vereinfachungen der Realität können sehr nützlich sein. Sie können uns helfen, das Gesamtprojekt und all seine verschiedenen Komponenten zu erklären, vorherzusagen und zu verstehen. Modelle werden verwendet, weil ihre Funktionen den meisten Softwareentwicklungsprogrammen entsprechen.
Ich möchte eine andere Interpretation des Begriffs "nützlich" geben. Wahrscheinlich dachte nicht die eine Box darüber nach.
Wenn Sie Entscheidungen treffen müssen und dafür alle Informationen schließlich verwendet werden, müssen Sie Ihren Erfolg in irgendeiner Form messen. Wenn von Entscheidungen mit unsicheren Informationen die Rede ist, wird diese Maßnahme häufig als Nutzen bezeichnet.
Wir können uns also nützliche Modelle vorstellen, die es uns ermöglichen, fundiertere Entscheidungen zu treffen. um unsere Ziele effektiver zu erreichen.
Dies fügt zusätzlich zu den üblichen Kriterien eine weitere Dimension hinzu, beispielsweise die Fähigkeit eines Modells, etwas richtig vorherzusagen: Es ermöglicht uns, die verschiedenen Aspekte, um die es in einem Modell geht, gegeneinander abzuwägen.
"Alle Modelle sind falsch, aber einige sind nützlich". Vielleicht heißt das: Wir sollten mit dem, was wir wissen, unser Bestes geben + nach neuem Lernen suchen?
Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.
Vielleicht ist das hilfreicher.