Die Wahrscheinlichkeitsverteilung ist eine mathematische Funktion, die eine Zufallsvariable beschreibt. Genauer gesagt ist es eine Funktion, die Wahrscheinlichkeiten zu Zahlen zuordnet und deren Ausgabe mit Axiomen der Wahrscheinlichkeit übereinstimmen muss .
Das statistische Modell ist eine abstrakte, idealisierte Beschreibung einiger Phänomene in mathematischen Begriffen unter Verwendung von Wahrscheinlichkeitsverteilungen. Zitiert von Wasserman (2013):
Ein statistisches Modell ist eine Menge von Verteilungen (oder Dichten oder Regressionsfunktionen). Ein parametrisches Modell ist eine Menge
F , die durch eine endliche Anzahl von Parametern parametrisiert werden kann. [...] FF
Im Allgemeinen hat ein parametrisches Modell die Form
F= { f( x ; θ ) : θ ∈ Θ }
Dabei ist ein unbekannter Parameter (oder ein Vektor von Parametern), der Werte im Parameterraum Θ annehmen kann . Wenn θ ein Vektor ist, wir aber nur an einer Komponente von θ interessiert sind , nennen wir die übrigen Parameter Störparameter . Ein nichtparametrisches Modell ist eine Menge F , die nicht durch eine endliche Anzahl von Parametern parametrisiert werden kann.θ ΘθθF
In vielen Fällen verwenden wir Verteilungen als Modelle (Sie können dieses Beispiel überprüfen ). Sie können die Binomialverteilung als Modell für die Anzahl der Köpfe in einer Reihe von Münzwürfen verwenden. In diesem Fall gehen wir davon aus, dass diese Verteilung vereinfacht die tatsächlichen Ergebnisse beschreibt. Dies bedeutet nicht, dass dies eine einzige Möglichkeit ist, ein solches Phänomen zu beschreiben, und auch nicht, dass die Binomialverteilung nur für diesen Zweck verwendet werden kann. Modell kann eine oder mehrere Verteilungen verwenden, während Bayes'sche Modelle auch frühere Verteilungen angeben.
Formal wird dies von McCullaugh (2002) diskutiert:
Nach gegenwärtig akzeptierten Theorien [Cox und Hinkley (1974), Kapitel 1; Lehmann (1983), Kapitel 1; Barndorff-Nielsen und Cox (1994), Abschnitt 1.1; Bernardo und Smith (1994), Kapitel 4] ein statistisches Modell ist ein Satz von Wahrscheinlichkeitsverteilungen auf dem Probenraum . Ein parametrisiertes statistisches Modell ist ein Parameter
Θ , der zusammen mit einer Funktion P : Θ → P ( S ) gesetzt wird , die jedem Parameterpunkt θ ∈ Θ eine Wahrscheinlichkeitsverteilung P θ auf
S zuweist
. Hier ist P ( S ) die Menge von allemSΘP: Θ → P( S)θ ∈ ΘPθSP( S)
Wahrscheinlichkeitsverteilungen auf . In vielen Teilen der folgenden ist es wichtig , zwischen dem Modell als Funktion zu unterscheiden P : & THgr; → P ( S ) und dem zugehörigen Satz von Verteilungen P & THgr; ⊂ P ( S ) .SP: Θ → P( S)P& THgr; ⊂ P( S)
So statistische Modelle verwenden Wahrscheinlichkeitsverteilungen Daten in ihren Bedingungen zu beschreiben. Parametrische Modelle werden auch als endliche Menge von Parametern beschrieben.
Dies bedeutet nicht, dass alle statistischen Methoden Wahrscheinlichkeitsverteilungen benötigen. Zum Beispiel wird die lineare Regression oft als Normalitätsannahme beschrieben , aber tatsächlich ist sie ziemlich robust, um von der Normalität abzuweichen, und wir benötigen eine Annahme über die Normalität von Fehlern für Konfidenzintervalle und Hypothesentests. Damit die Regression funktioniert, brauchen wir keine solche Annahme, aber um ein vollständig festgelegtes statistisches Modell zu haben, müssen wir es in Form von Zufallsvariablen beschreibenAlso brauchen wir Wahrscheinlichkeitsverteilungen. Ich schreibe darüber, weil man oft Leute sagen hört, dass sie ein Regressionsmodell für ihre Daten verwendet haben - in den meisten Fällen meinen sie eher, dass sie Daten in Form einer linearen Beziehung zwischen Zielwerten und Prädiktoren beschreiben, indem sie einige Parameter verwenden, anstatt auf Bedingungen zu bestehen Normalität.
McCullagh, P. (2002). Was ist ein statistisches Modell? Annalen der Statistik, 1225-1267.
Wasserman, L. (2013). Alle Statistiken: ein prägnanter Kurs in statistischer Inferenz. Springer.