Was ist bei der Regressionsanalyse der Unterschied zwischen 'Datenerzeugungsprozess' und 'Modell'?
Was ist bei der Regressionsanalyse der Unterschied zwischen 'Datenerzeugungsprozess' und 'Modell'?
Antworten:
Wir alle haben ein gutes Gespür dafür, was "Modell" bedeuten könnte, auch wenn die technische Definition von Fach zu Fach unterschiedlich sein wird. Um dies mit DGP zu vergleichen, habe ich mir zunächst die fünf besten Treffer (mit zwei Treffern mit demselben Autor als einem) in Googling "Datengenerierungsprozess" angesehen.
Ein Papier , wie die US Air Force tatsächlich schafft Daten in Logistikunterstützung.
Zusammenfassung eines in Environment and Planning A veröffentlichten Papers darüber, wie "synthetische Mikropopulationen" über Computer "Simulationsmodelle" erzeugt werden.
Eine Webseite zur "Erzeugung synthetischer Daten"; das heißt, Simulation, "um die Auswirkungen bestimmter Datenmerkmale auf ... Modelle zu untersuchen."
Zusammenfassung eines Konferenzbeitrags zum Thema Data Mining mit der Behauptung, dass "Daten in Datenbanken das Ergebnis eines zugrunde liegenden Datenerzeugungsprozesses (dgp) sind".
Ein Buchkapitel , das die Daten von Interesse als "aus einer Transformation eines zugrunde liegenden [stochastischen] Prozesses V t ... hervorgegangen, von dem einige oder alle [von denen] unbemerkt bleiben können ..." charakterisiert.
Diese Verknüpfungen weisen drei leicht unterschiedliche, aber eng verwandte Verwendungen des Begriffs "Datenerzeugungsprozess" auf. Das häufigste Problem ist die statistische Simulation. Die anderen beziehen sich auf die tatsächlichen Mittel, mit denen Daten in einer laufenden Situation (Logistik) erstellt werden, und auf ein Wahrscheinlichkeitsmodell für ein laufendes Datenerstellungsverfahren, das nicht direkt analysiert werden soll. Im letzten Fall unterscheidet der Text einen nicht beobachtbaren stochastischen Prozess, der es dennoch ist mathematisch modelliert wird , von den tatsächlichen Zahlen, die analysiert werden.
Dies deutet darauf hin, dass zwei leicht unterschiedliche Antworten haltbar sind:
Im Zusammenhang mit der Simulation oder der Erstellung von "synthetischen" Daten für die Analyse ist der "Datenerzeugungsprozess" eine Möglichkeit, Daten für die anschließende Untersuchung zu erstellen, üblicherweise mit Hilfe des Pseudozufallszahlengenerators eines Computers. Die Analyse wird implizit ein Modell übernehmen, das die mathematischen Eigenschaften dieses DGP beschreibt.
Im Rahmen der statistischen Analyse möchten wir möglicherweise ein Phänomen der realen Welt (DGP) von den Beobachtungen unterscheiden, die analysiert werden. Wir haben Modelle sowohl für das Phänomen als auch für die Beobachtungen sowie ein Modell dafür, wie die beiden miteinander verbunden sind.
vom Experimentator festgelegt werden, oder sie könnten auf irgendeine Weise beobachtet und dann als verursachend angenommen werdenModell würde beschreiben, auf welche Weise diese Daten mathematisch in Beziehung gesetzt werden könnten; Beispiel , so könnte man sagen , dass jedes eine Zufallsvariable mit Erwartungswert X β und die Varianz σ 2 für die unbekannten Parameter & bgr; und σ .
Die DGP ist das wahre Modell. Das Modell ist das, was wir mit unseren besten Fähigkeiten versucht haben, um den wahren Zustand der Natur darzustellen. Das DGP wird durch "Rauschen" beeinflusst. Es gibt viele Arten von Lärm:
Wenn Sie diese 6 Punkte nicht kontrollieren, verringert sich Ihre Fähigkeit, den wahren DGP zu identifizieren.
Die Antwort von Whuber ist ausgezeichnet, aber es sollte betont werden, dass ein statistisches Modell nicht in jeder Hinsicht dem datengenerierenden Modell ähneln muss, um ein geeignetes Modell für die inferentielle Untersuchung von Daten zu sein. Liu und Meng erläutern diesen Punkt mit großer Klarheit in ihrem kürzlich erschienenen Artikel von arXived ( http://arxiv.org/abs/1510.08539 ):
Irrtum 1. Ein Wahrscheinlichkeitsmodell muss die Generierung der Daten beschreiben.
Eine treffendere Beschreibung der Aufgabe des Modells (in der Folgerung) lautet: „Dieses und jenes wahrscheinlichkeitstheoretische Muster erzeugt Daten, die in wichtigen Punkten unseren ähneln.“ Um Repliken (dh Kontrollen) der Mona Lisa zu erstellen, muss man nicht da Vinci mitbringen Zurück zum Leben - eine Kamera und ein Drucker werden für die meisten Zwecke ausreichen. Natürlich wird die Kenntnis des Malstils von da Vinci die Qualität unserer Replikate verbessern, ebenso wie die wissenschaftliche Kenntnis des tatsächlichen Datenerzeugungsprozesses uns hilft, aussagekräftigere Steuerelemente zu entwerfen. Aus Gründen der Quantifizierung der Unsicherheit besteht die Aufgabe unseres Modells darin, eine Reihe von Steuerelementen anzugeben, die (D,). Nirgendwo ist dieser Punkt klarer als in Anwendungen, die Computerexperimente beinhalten, bei denen ein probabilistisches Muster verwendet wird, um Daten nach einem bekannten (aber hochkomplizierten) deterministischen Muster zu beschreiben (Kennedy und O'Hagan, 2001; Conti et al., 2009). Wir brauchen ein beschreibendes Modell, nicht unbedingt ein generatives Modell. Siehe hierzu Lehmann (1990), Breiman (2001) sowie Hansen und Yu (2001).
DGP ist die virtuelle Realität und ein einzigartiges Rezept für die Simulation. Ein Modell ist eine Sammlung von DGP oder Möglichkeiten, wie die Daten generiert werden könnten.
Lesen Sie die erste Seite dieses Minikurses von Russell Davidson:
http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf