Was ist bei der Regressionsanalyse der Unterschied zwischen Datenerzeugungsprozess und Modell?


19

Was ist bei der Regressionsanalyse der Unterschied zwischen 'Datenerzeugungsprozess' und 'Modell'?


1
Datengenerierungsprozess ist nie bekannt, wir wählen das Modell in der Hoffnung, dass wir den Datengenerierungsprozess ausreichend approximieren. Dies ist eine der möglichen Antworten. Es wäre hilfreich, wenn Sie mehr Kontext angeben, damit klarer wird, nach welcher Art von Antwort Sie suchen. Schauen Sie sich den Chat an. Der derzeit laufende Journal-Club diskutiert einen Artikel, in dem dieses Problem angesprochen wird.
mpiktas

3
Die Antworten auf diese Frage werden unterschiedlich ausfallen, da sowohl der "Datenerzeugungsprozess" als auch das "Modell" von verschiedenen Autoren auf unterschiedliche Weise verwendet werden. @Weijie, haben Sie eine bestimmte Referenz im Sinn?
whuber

Antworten:


15

Wir alle haben ein gutes Gespür dafür, was "Modell" bedeuten könnte, auch wenn die technische Definition von Fach zu Fach unterschiedlich sein wird. Um dies mit DGP zu vergleichen, habe ich mir zunächst die fünf besten Treffer (mit zwei Treffern mit demselben Autor als einem) in Googling "Datengenerierungsprozess" angesehen.

  1. Ein Papier , wie die US Air Force tatsächlich schafft Daten in Logistikunterstützung.

  2. Zusammenfassung eines in Environment and Planning A veröffentlichten Papers darüber, wie "synthetische Mikropopulationen" über Computer "Simulationsmodelle" erzeugt werden.

  3. Eine Webseite zur "Erzeugung synthetischer Daten"; das heißt, Simulation, "um die Auswirkungen bestimmter Datenmerkmale auf ... Modelle zu untersuchen."

  4. Zusammenfassung eines Konferenzbeitrags zum Thema Data Mining mit der Behauptung, dass "Daten in Datenbanken das Ergebnis eines zugrunde liegenden Datenerzeugungsprozesses (dgp) sind".

  5. Ein Buchkapitel , das die Daten von Interesse als "aus einer Transformation eines zugrunde liegenden [stochastischen] Prozesses V t ... hervorgegangen, von dem einige oder alle [von denen] unbemerkt bleiben können ..." charakterisiert.WtVt

Diese Verknüpfungen weisen drei leicht unterschiedliche, aber eng verwandte Verwendungen des Begriffs "Datenerzeugungsprozess" auf. Das häufigste Problem ist die statistische Simulation. Die anderen beziehen sich auf die tatsächlichen Mittel, mit denen Daten in einer laufenden Situation (Logistik) erstellt werden, und auf ein Wahrscheinlichkeitsmodell für ein laufendes Datenerstellungsverfahren, das nicht direkt analysiert werden soll. Im letzten Fall unterscheidet der Text einen nicht beobachtbaren stochastischen Prozess, der es dennoch ist mathematisch modelliert wird , von den tatsächlichen Zahlen, die analysiert werden.

Dies deutet darauf hin, dass zwei leicht unterschiedliche Antworten haltbar sind:

  1. Im Zusammenhang mit der Simulation oder der Erstellung von "synthetischen" Daten für die Analyse ist der "Datenerzeugungsprozess" eine Möglichkeit, Daten für die anschließende Untersuchung zu erstellen, üblicherweise mit Hilfe des Pseudozufallszahlengenerators eines Computers. Die Analyse wird implizit ein Modell übernehmen, das die mathematischen Eigenschaften dieses DGP beschreibt.

  2. Im Rahmen der statistischen Analyse möchten wir möglicherweise ein Phänomen der realen Welt (DGP) von den Beobachtungen unterscheiden, die analysiert werden. Wir haben Modelle sowohl für das Phänomen als auch für die Beobachtungen sowie ein Modell dafür, wie die beiden miteinander verbunden sind.

(X,Y)i(X1i,X2i,,Xpi,Yi)i=1,2,,nXji vom Experimentator festgelegt werden, oder sie könnten auf irgendeine Weise beobachtet und dann als verursachend angenommen werdenYiModell würde beschreiben, auf welche Weise diese Daten mathematisch in Beziehung gesetzt werden könnten; Beispiel , so könnte man sagen , dass jedes eine Zufallsvariable mit Erwartungswert X β und die Varianz σ 2 für die unbekannten Parameter & bgr; und σ .YiXβσ2βσ


Sie schreiben die Wörter "Ursache" oder "verwandt". Ich habe eine Frage dazu. Aus Ihrer Antwort geht hervor, dass DGP-Konzepte keine Kausalität implizieren. Diese "Beziehung" ist jedoch mehr als nur eine Korrelation (oder irgendeine Art von Assoziation) oder nicht? Siehe dazu auch meine verwandte Frage: stats.stackexchange.com/questions/399671/…
markowitz

@markowitz "Korrelation" bezieht sich genau genommen auf einen zweiten Moment der bivariaten Zufallsvariablen. Ich verwende "verwandt" im weiteren Sinne von "nicht [statistisch] unabhängig".
whuber

Ich weiß, und genau aus diesem Grund habe ich "oder irgendeine Art von [nur statistischer] Assoziation" angegeben. Kann ich meine Frage wie folgt wiederholen: Ist diese "Beziehung" jedoch mehr als die Assoziation oder nicht? Ausgehend von dem Konzept des "wahren Modells", das manchmal als Synonym für DGP verwendet wird, scheint es etwas mehr zu sein. Wenn ja, verstehe ich nicht genau, was es ist. Mein vorheriger Link gibt ein Beispiel.
Markowitz

@markowitz Ich fürchte, ich verstehe nicht, was Sie fragen wollen. Das mag daran liegen, dass ich nicht sicher bin, was Sie genau unter "Beziehung" oder "Assoziation" verstehen. Ich habe mir Ihren Link angesehen, aber die ungewöhnliche englische Verwendung vermittelt mir nichts Sinnvolles.
whuber

Es tut mir leid für mein Englisch. Ich habe versucht, die verknüpfte Frage klarer zu formulieren. Ich hoffe, dass es verständlich ist.
Markowitz

4

Die DGP ist das wahre Modell. Das Modell ist das, was wir mit unseren besten Fähigkeiten versucht haben, um den wahren Zustand der Natur darzustellen. Das DGP wird durch "Rauschen" beeinflusst. Es gibt viele Arten von Lärm:

  1. Einmalige Interventionen
  2. Level verschiebt sich
  3. Trends
  4. Änderungen in der Saisonalität
  5. Änderungen der Modellparameter
  6. Änderungen in der Varianz

Wenn Sie diese 6 Punkte nicht kontrollieren, verringert sich Ihre Fähigkeit, den wahren DGP zu identifizieren.


4

Die Antwort von Whuber ist ausgezeichnet, aber es sollte betont werden, dass ein statistisches Modell nicht in jeder Hinsicht dem datengenerierenden Modell ähneln muss, um ein geeignetes Modell für die inferentielle Untersuchung von Daten zu sein. Liu und Meng erläutern diesen Punkt mit großer Klarheit in ihrem kürzlich erschienenen Artikel von arXived ( http://arxiv.org/abs/1510.08539 ):

Irrtum 1. Ein Wahrscheinlichkeitsmodell muss die Generierung der Daten beschreiben.

Eine treffendere Beschreibung der Aufgabe des Modells (in der Folgerung) lautet: „Dieses und jenes wahrscheinlichkeitstheoretische Muster erzeugt Daten, die in wichtigen Punkten unseren ähneln.“ Um Repliken (dh Kontrollen) der Mona Lisa zu erstellen, muss man nicht da Vinci mitbringen Zurück zum Leben - eine Kamera und ein Drucker werden für die meisten Zwecke ausreichen. Natürlich wird die Kenntnis des Malstils von da Vinci die Qualität unserer Replikate verbessern, ebenso wie die wissenschaftliche Kenntnis des tatsächlichen Datenerzeugungsprozesses uns hilft, aussagekräftigere Steuerelemente zu entwerfen. Aus Gründen der Quantifizierung der Unsicherheit besteht die Aufgabe unseres Modells darin, eine Reihe von Steuerelementen anzugeben, die (D,θ). Nirgendwo ist dieser Punkt klarer als in Anwendungen, die Computerexperimente beinhalten, bei denen ein probabilistisches Muster verwendet wird, um Daten nach einem bekannten (aber hochkomplizierten) deterministischen Muster zu beschreiben (Kennedy und O'Hagan, 2001; Conti et al., 2009). Wir brauchen ein beschreibendes Modell, nicht unbedingt ein generatives Modell. Siehe hierzu Lehmann (1990), Breiman (2001) sowie Hansen und Yu (2001).


+1. Mir gefällt besonders die Unterscheidung zwischen beschreibenden und generativen Datenmodellen.
Whuber

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.