Das statistische und das mathematische Konzept sind genau gleich, wobei "Familie" ein allgemeiner mathematischer Begriff mit technischen Variationen ist, die an verschiedene Umstände angepasst sind:
Eine parametrische Familie ist eine Kurve (oder eine Oberfläche oder eine andere endliche Verallgemeinerung davon) im Raum aller Verteilungen.
Der Rest dieses Beitrags erklärt, was das bedeutet. Abgesehen davon halte ich nichts davon für kontrovers, weder mathematisch noch statistisch (abgesehen von einem kleinen Problem, das unten erwähnt wird). Zur Unterstützung dieser Meinung habe ich viele Verweise geliefert (hauptsächlich auf Wikipedia-Artikel).
Diese Terminologie von „Familien“ neigt dazu verwendet werden , wenn Klassen Studium C YCY von Funktionen in einen Satz YY oder „Karten“ . Bei gegebener Domäne XX ist eine Familie FF von Karten auf XX , die durch eine Menge ΘΘ (die "Parameter") parametrisiert sind, eine Funktion
F : X × Θ → Y
F:X×Θ→Y
für die (1) für jedes θ ∈ & THgr;θ∈Θ ist die Funktion F θ : X → YFθ:X→Y gegeben durch F θ ( x ) = F ( x , θ )Fθ(x)=F(x,θ) ist in C YCY und (2) FF selbst bestimmte "nett" Eigenschaften hat.
Die Idee ist, dass wir Funktionen von XX nach YY. auf "glatte" oder kontrollierte Weise variieren wollen . Eigenschaft (1) bedeutet, dass jedes &θ thgr; eine solche Funktion bezeichnet, während die Details von Eigenschaft (2) den Sinn erfassen, in dem eine "kleine" Änderung von &θ thgr; eine ausreichend "kleine" Änderung von F & thgr; induziert Fθ.
Ein mathematisches Standardbeispiel, das dem in der Frage genannten nahe kommt, ist eine Homotopie . In diesem Fall ist C Y die Kategorie kontinuierlicher Karten von topologischen Räumen X in den topologischen Raum Y ; Θ = [ 0 , 1 ] ⊂ R ist das Einheitsintervall mit seiner üblichen Topologie, und wir fordern, dass F eine kontinuierliche Abbildung vom topologischen Produkt X × Θ in Y ist . Es kann als "kontinuierliche Verformung der Karte F" angesehen werdenCY. XYΘ=[0,1]⊂RFX×ΘY0 bis F 1. "Wenn X =Kurvenin Y und die Homotopie ist eine sanfte Verformung von einer Kurve zur anderen.F0F1[ 0 , 1 ] ist selbst ein Intervall, solche Karten sindX=[0,1]Y
Für statistische Anwendungen ist C Y die Menge aller Verteilungen auf R (oder in der Praxis auf R n für einige n , aber um die Darstellung einfach zu halten, werde ich mich auf n = 1 konzentrieren ). Wir können es mit der Menge aller nicht abnehmenden càdlàg- Funktionen R → [ 0 , 1 ] identifizieren , wobei der Abschluss ihres Bereichs sowohl 0 als auch 1CYRRnnn = 1R →[0,1]01 : Dies sind die kumulativen Verteilungsfunktionen oder einfach Verteilungsfunktionen. Somit X = R undX=RY = [ 0 , 1 ] .Y=[0,1]
Eine Familie von Verteilungen ist eine beliebige Teilmenge von C Y . CY Ein anderer Name für eine Familie ist das statistische Modell. Es besteht aus allen Verteilungen, von denen wir annehmen, dass sie unsere Beobachtungen steuern, aber wir wissen nicht, welche Verteilung die tatsächliche ist.
- Eine Familie kann leer sein.
- C Y selbst ist eine Familie.CY
- Eine Familie kann aus einer einzelnen Verteilung oder nur einer begrenzten Anzahl von ihnen bestehen.
Diese abstrakten satztheoretischen Eigenschaften sind von relativ geringem Interesse oder Nutzen. Nur wenn wir zusätzliche (relevante) mathematische Strukturen auf C Y betrachten , wird dieses Konzept nützlich. Aber welche Eigenschaften von C YCYCY sind von statistischem Interesse? Einige, die häufig auftauchen, sind:
C Y ist einekonvexe Menge: Wenn zwei beliebige Verteilungen F , G ∈ C Y gegeben sind , können wir dieMischungsverteilung(1-t) F +t G ∈Yfür allet∈[0,1] bilden. Dies ist eine Art "Homotopie" vonFnachGCYF,G∈CY (1−t)F+tG∈Yt∈[0,1]FG .
Große Teile von C Y unterstützen verschiedene Pseudo-Metriken, wie zum Beispiel die Kullback-Leibler-DivergenzCY oder die eng verwandte Fisher-Information-Metrik.
C Y hat eine additive Struktur: entspricht zwei beliebigen VerteilungenFundGihre Summe, F ⋆ G .CYFGF⋆G
C Y unterstützt viele nützliche natürliche Funktionen, die oft als "Eigenschaften" bezeichnet werden. Dazu gehören alle festen Quantile (wie der Median) sowie dieKumulanten.CY
CYCY is a subset of a function space. As such, it inherits many useful metrics, such as the sup norm (L∞L∞ norm) given by ||F−G||∞=supx∈R|F(x)−G(x)|.
||F−G||∞=supx∈R|F(x)−G(x)|.
Natural group actions on RR induce actions on CYCY. The commonest actions are translations Tμ:x→x+μTμ:x→x+μ and scalings Sσ:x→xσSσ:x→xσ for σ>0σ>0. The effect these have on a distribution is to send FF to the distribution given by Fμ,σ(x)=F((x−μ)/σ)Fμ,σ(x)=F((x−μ)/σ). These lead to the concepts of location-scale families and their generalizations. (I don't supply a reference, because extensive Web searches turn up a variety of different definitions: here, at least, may be a tiny bit of controversy.)
The properties that matter depend on the statistical problem and on how you intend to analyze the data. Addressing all the variations suggested by the preceding characteristics would take too much space for this medium. Let's focus on one common important application.
Take, for instance, Maximum Likelihood. In most applications you will want to be able to use Calculus to obtain an estimate. For this to work, you must be able to "take derivatives" in the family.
(Technical aside: The usual way in which this is accomplished is to select a domain Θ⊂RdΘ⊂Rd for d≥0d≥0 and specify a continuous, locally invertible function pp from ΘΘ into CYCY. (This means that for every θ∈Θθ∈Θ there exists a ball B(θ,ϵ)B(θ,ϵ), with ϵ>0ϵ>0 for which p∣B(θ,ϵ):B(θ,ϵ)∩Θ→CYp∣B(θ,ϵ):B(θ,ϵ)∩Θ→CY is one-to-one. In other words, if we alter θθ by a sufficiently small amount we will always get a different distribution.))
Consequently, in most ML applications we require that pp be continuous (and hopefully, almost everywhere differentiable) in the ΘΘ component. (Without continuity, maximizing the likelihood generally becomes an intractable problem.) This leads to the following likelihood-oriented definition of a parametric family:
A parametric family of (univariate) distributions is a locally invertible map F:R×Θ→[0,1],
F:R×Θ→[0,1],
with Θ⊂RnΘ⊂Rn, for which (a) each FθFθ is a distribution function and (b) for each x∈Rx∈R, the function Lx:θ→[0,1]Lx:θ→[0,1] given by Lx(θ)=F(x,θ)Lx(θ)=F(x,θ) is continuous and almost everywhere differentiable.
Note that a parametric family FF is more than just the collection of FθFθ: it also includes the specific way in which parameter values θθ correspond to distributions.
Let's end up with some illustrative examples.
Let CYCY be the set of all Normal distributions. As
given, this is not a parametric family: it's just a family. To be
parametric, we have to choose a parameterization. One way is to
choose Θ={(μ,σ)∈R2∣σ>0}Θ={(μ,σ)∈R2∣σ>0}
and to map (μ,σ)(μ,σ) to the Normal distribution with mean μμ
and variance σ2σ2.
The set of Poisson(λ)(λ) distributions is a parametric family
with λ∈Θ=(0,∞)⊂R1λ∈Θ=(0,∞)⊂R1.
The set of Uniform(θ,θ+1)(θ,θ+1) distributions (which features
prominently in many textbook exercises) is a parametric family with
θ∈R1θ∈R1. In this case, Fθ(x)=max(0,min(1,x−θ))Fθ(x)=max(0,min(1,x−θ)) is differentiable in θθ except for
θ∈{x,x−1}θ∈{x,x−1}.
Let FF and GG be any two distributions. Then F(x,θ)=(1−θ)F(x)+θG(x)F(x,θ)=(1−θ)F(x)+θG(x) is a parametric family for θ∈[0,1]θ∈[0,1]. (Proof: the image of FF is a set of distributions and its partial derivative in θθ equals −F(x)+G(x)−F(x)+G(x) which is defined everywhere.)
The Pearson family is a four-dimensional family, Θ⊂R4Θ⊂R4, which includes (among others) the Normal distributions, Beta distributions, and Inverse Gamma distributions. This illustrates the fact that any one given distribution may belong to many different distribution families. This is perfectly analogous to observing that any point in a (sufficiently large) space may belong to many paths that intersect there. This, together with the previous construction, shows us that no distribution uniquely determines a family to which it belongs.
The family CYCY of all finite-variance absolutely continuous distributions is not parametric. The proof requires a deep theorem of topology: if we endow CYCY with any topology (whether statistically useful or not) and p:Θ→CYp:Θ→CY is continuous and locally has a continuous inverse, then locally CYCY must have the same dimension as that of Θ. However, in all statistically meaningful topologies, CY is infinite dimensional.