Der Verweis auf "Lassen Sie die Daten das Modell leiten" kann George EP Box und Gwilym M. Jenkins zugeschrieben werden . In Kapitel 2 ihres klassischen Lehrbuchs Time Series Analysis: Forecasting and Control (1976) heißt es:
Das Erhalten von Stichprobenschätzungen der Autokorrelationsfunktion und des Spektrums sind nicht strukturelle Ansätze, analog zur Darstellung einer empirischen Verteilungsfunktion durch ein Histogramm. Sie sind beide Möglichkeiten, die Daten aus stationären Reihen "für sich selbst sprechen" zu lassen und bieten einen ersten Schritt bei der Analyse von Zeitreihen, ebenso wie ein Histogramm einen ersten Schritt bei der Verteilungsanalyse von Daten darstellen kann, der den Weg zu weist ein parametrisches Modell, auf dem die nachfolgende Analyse basiert.
Dieses von Box & Jenkins befürwortete Modellierungsverfahren, bei dem die Daten sprechen , wird in der gesamten Literatur zur ARIMA-Modellierung offensichtlich erwähnt. Zum Beispiel sagt Pankratz (1983) im Zusammenhang mit der Identifizierung vorläufiger ARIMA-Modelle:
Beachten Sie, dass wir uns den verfügbaren Daten nicht mit einer starren, vorgefassten Vorstellung davon nähern, welches Modell wir verwenden werden. Stattdessen lassen wir die verfügbaren Daten in Form einer geschätzten Autokorrelationsfunktion und einer partiellen Autokorrelationsfunktion mit uns sprechen.
Man kann also sagen, dass die Idee , die Daten das Modell leiten zu lassen, ein weit verbreitetes Merkmal in der Zeitreihenanalyse ist.
Ähnliche Begriffe finden sich jedoch auch in anderen (Unter-) Studienbereichen. Zum Beispiel hat @Dmitrij Celov korrekt auf Christopher Sims 'wegweisenden Artikel Macroeconomics and Reality (1980) verwiesen, der eine Reaktion gegen die Verwendung von simultanen Gleichungsmodellen in großem Maßstab in der Makroökonomie war.
Der traditionelle Ansatz in der Makroökonomie bestand darin, die Wirtschaftstheorie als Leitfaden für die Erstellung makroökonomischer Modelle zu verwenden. Oft bestanden die Modelle aus Hunderten von Gleichungen, und ihnen wurden Einschränkungen auferlegt, beispielsweise die Vorentscheidung der Vorzeichen einiger Koeffizienten. Sims (1980) kritisierte die Verwendung dieses A-priori- Wissens zur Erstellung makroökonomischer Modelle:
Die Tatsache, dass große makroökonomische Modelle dynamisch sind, ist eine reiche Quelle für falsche "a priori" -Einschränkungen.
Wie bereits von @Dmitrij Celov erwähnt, bestand der von Sims (1980) befürwortete alternative Ansatz darin, autoregressive Vektorgleichungen anzugeben, die (im Wesentlichen) auf den eigenen verzögerten Werten einer Variablen und auf verzögerten Werten anderer Variablen basieren.
Obwohl ich ein Fan des Gedankens bin, die Daten für sich selbst sprechen zu lassen , bin ich mir nicht sicher, ob diese Methodik vollständig auf alle Studienbereiche ausgedehnt werden kann . Betrachten Sie beispielsweise eine arbeitsökonomische Studie, um den Unterschied zwischen den Lohnsätzen zwischen Männern und Frauen in einem bestimmten Land zu erklären. Die Auswahl der Regressoren in einem solchen Modell wird wahrscheinlich von der Humankapitaltheorie geleitet . In anderen Kontexten kann die Gruppe der Regressoren basierend darauf ausgewählt werden, was uns interessiert und was der gesunde Menschenverstand uns sagt. Verbeek (2008) sagt:
Es wird empfohlen, den Satz potenziell relevanter Variablen eher auf der Grundlage wirtschaftlicher als statistischer Argumente auszuwählen . Obwohl manchmal etwas anderes vorgeschlagen wird, sind statistische Argumente niemals Sicherheitsargumente.
Eigentlich kann ich hier nur die Oberfläche kratzen, weil es ein so großes Thema ist, aber die beste Referenz, die mir beim Modellieren begegnet ist, ist Granger (1991). Wenn Ihr Hintergrund nicht ökonomisch ist, lassen Sie sich vom Titel des Buches nicht abschrecken. Der größte Teil der Diskussion findet im Zusammenhang mit der Modellierung von Wirtschaftsreihen statt, aber ich bin sicher, dass diejenigen aus anderen Bereichen viel davon haben und es nützlich finden würden.
Das Buch enthält ausgezeichnete Diskussionen über verschiedene Modellierungsmethoden wie:
- Der von David Hendry vertretene allgemeine bis spezifische Ansatz (oder die LSE-Methodik).
- Der spezifische bis allgemeine Ansatz.
- Edward Leamers Methodik (normalerweise verbunden mit den Begriffen "Sensitivitätsanalyse (oder Analyse extremer Grenzen)" und "Bayesian" ).
- Zufälligerweise wird auch der Ansatz von Christophers Sims behandelt.
Es ist erwähnenswert, dass Granger (1991) tatsächlich eine Sammlung von Artikeln ist. Anstatt zu versuchen, eine Kopie des Buches zu erhalten, können Sie natürlich das Inhaltsverzeichnis nachschlagen und versuchen, die Artikel selbst zu finden. (Siehe Link unten.)
Hoffe das hat sich als hilfreich erwiesen!
Verweise: