Ist ein Modell an Daten angepasst oder sind Daten an ein Modell angepasst?


20

Gibt es einen konzeptionellen oder prozeduralen Unterschied zwischen der Anpassung eines Modells an Daten und der Anpassung von Daten an Modelle? Ein Beispiel für den ersten Wortlaut ist in zu sehen https://courses.washington.edu/matlab1/ModelFitting.html und das zweite unter https://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html .


7
+1 Der zweite Link beeindruckt mich nicht, aber ich bin unterhalten.
Der Lakonische

Viele Modelle
passen

Antworten:


35

Nahezu jede Quelle oder Person, mit der ich jemals interagiert habe, mit Ausnahme der Wolfram-Quelle, die Sie verlinkt haben, bezieht sich auf den Prozess als Anpassung eines Modells an Daten . Dies ist sinnvoll, da das Modell das dynamische Objekt ist und die Daten statisch (auch als fest und konstant bezeichnet) sind.

Um es auf den Punkt zu bringen, ich mag Larry Wassermans Herangehensweise daran. In seiner Darstellung ist ein statistisches Modell eine Sammlung von Verteilungen. Zum Beispiel die Auflistung aller Normalverteilungen:

{Normal(μ,σ):μ,σR,σ>0}

oder die Menge aller Poisson-Verteilungen:

{Poisson(λ):λR,λ>0}

Das Anpassen einer Verteilung an Daten ist ein beliebiger Algorithmus, der ein statistisches Modell mit einer Datenmenge kombiniert (die Daten sind fest) und genau eine der Verteilungen aus dem Modell als diejenige auswählt, die die Daten "am besten" widerspiegelt.

Das Modell ist das, was sich ändert (Art): Wir brechen es aus einer ganzen Sammlung von Möglichkeiten zu einer einzigen besten Wahl zusammen. Die Daten sind nur die Daten; es passiert überhaupt nichts.


16

Im Bereich der Rasch-Modellierung ist es üblich, die Daten an das Modell anzupassen. Es wird davon ausgegangen, dass das Modell korrekt ist, und es ist Aufgabe des Analysten, Daten zu finden, die mit dem Modell übereinstimmen. Der Wikipedia-Artikel über Rasch enthält weitere Informationen zum Wie und Warum.

Aber ich stimme anderen zu, dass wir in der Statistik das Modell im Allgemeinen an die Daten anpassen, weil wir das Modell ändern können, aber es als schlechte Form empfunden wird, die Daten auszuwählen oder zu ändern.


7

In der Regel werden die beobachteten Daten festgelegt, während das Modell veränderlich ist (z. B. weil die Parameter geschätzt werden). Daher wird das Modell so erstellt, dass es zu den Daten passt, und nicht umgekehrt . (Normalerweise meinen die Leute diesen Fall, wenn sie einen der beiden Ausdrücke sagen.)

Wenn Leute sagen, dass sie Daten zu einem Modell passen, versuche ich herauszufinden, was zum Teufel sie mit den Daten gemacht haben? .

[Nun, wenn Sie Daten transformieren , wäre das wohl "Anpassen von Daten an ein Modell", aber das wird in diesem Fall fast nie gesagt.]


5
Das Entfernen von Ausreißern wäre auch (wohl) eine "Anpassung von Daten an ein Modell".
Federico Poloni

1
Die Formulierung kann sinnvoll sein, wenn sie als "Anpassung (Daten an ein Modell)" betrachtet wird. Das heißt, Sie führen einen Anpassungsprozess durch, und dieser Anpassungsprozess beginnt mit Daten und wandelt sie in ein Modell um. Ich bin damit einverstanden, dass dies eine weniger verbreitete / genaue Interpretation im Vergleich zu der Analyse "(X) zu Y" ist, aber ich habe es als Begründung herausgestellt, warum jemand es logisch sagen könnte.
RM

1
@FedericoPoloni Ausreißer werden normalerweise unabhängig von dem Modell definiert, das Sie später verwenden möchten. Selbst wenn wir es als passende Daten bezeichnen würden, wäre es kein Modell, sondern etwas anderes.
BartoszKP

1
+1. Es gibt einen Grund, warum es "Daten" genannt wird - es ist das, was gegeben ist , siehe den lateinischen Ursprung des Wortes: latindictionary.wikidot.com/verb:dare
Christoph Hanck

2

Normalerweise gehen wir davon aus, dass unsere Daten der "realen Welt" entsprechen. Wenn wir Änderungen vornehmen, entfernen wir uns von der Modellierung der "realen Welt". Zum Beispiel muss man darauf achten, Ausreißer zu entfernen, da Ausreißer immer noch Teil unserer Daten sind, auch wenn dies die Berechnung schöner macht.

Wenn Sie ein Modell testen oder die Eigenschaften eines Schätzers mit Bootstrap oder anderen Resampling-Techniken schätzen , können Sie neue Daten unter Verwendung eines geschätzten Modells und unserer Originaldaten simulieren . Dies setzt voraus, dass das Modell korrekt ist und wir unsere ursprünglichen Daten nicht ändern.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.