Ich werde versuchen, die andere Antwort hinzuzufügen. Erstens ist Vollständigkeit eine technische Bedingung, die hauptsächlich durch die sie verwendenden Theoreme gerechtfertigt ist. Beginnen wir also mit einigen verwandten Konzepten und Theoremen, in denen sie vorkommen.
Sei X= ( X1, X2, … , Xn) ein Vektor von iid-Daten, für den wir eine Verteilung f( X , θ ) , θ ∈ & THgr; modellieren , θ ∈ Θ, wobei der Parameter θ , der die Daten regelt, unbekannt ist. T= T( X) ist ausreichend, wenn die bedingte Verteilung von X∣ T nicht vom Parameter θ abhängt . V= V( X) istnebensächlich,wenn die Verteilung vonV nicht vonθ abhängt(innerhalb der Familief( x ; θ ) ). U= U( X) ist einunverzerrter Schätzer von Null,wenn seine Erwartung ungeachtet vonθ thgr; Null ist. S= S( X) ist einevollständige Statistik,wenn ein unverzerrter Schätzer von Null, der aufS basiert, identisch Null ist, dh wennEG( S) = 0 ( für alle θ ) dannG( S) = 0 ae (für alleθ ).
Angenommen, Sie haben zwei verschiedene unverzerrte Schätzer für θ basierend auf der ausreichenden Statistik T , G1( T) , g2( T) . Das heißt, in Symbolen
EG1( T) = θ ,EG2( T) = θ
undP( g1( T) ≠ g2( T) ) > 0 (für alleθ ). Dann istG1( T) - g2( T) ein unverzerrter Schätzer von Null, der nicht identisch Null ist, was beweist, dassT nicht vollständig ist. Die Vollständigkeit einer ausreichenden StatistikT gibt uns also die Möglichkeit, dass es nur einen eindeutigen unverzerrten Schätzer fürθbasierend auf T . Das kommt dem Lehmann-Scheffé-Theorem schon sehr nahe.
Schauen wir uns einige Beispiele an. Angenommen, X1, … , Xn sind nun im Intervall ( θ , θ + 1 ) gleichförmig . Wir können zeigen, dass ( X(1)<X(2)<⋯<X(n) die Ordnungsstatistik ist) das Paar ( X ( 1 ) , X ( n ) ) ausreichend ist, aber es ist nicht vollständig, weil die Differenz X (n ) - X(X(1),X(n))X(n)−X(1) ist nebensächlich, wir können seine Erwartung berechnen, es seic(was nur eine Funktion vonn), und dann wirdX(n)−X(1)−cein unverzerrter Schätzer von Null sein das ist nicht identisch Null. Daher ist unsere ausreichende Statistik in diesem Fall nicht vollständig und ausreichend. Und wir können sehen, was das bedeutet: Es gibt Funktionen der ausreichenden Statistik, die nicht überθinformativ sindθ(im Kontext des Modells). Dies kann nicht mit einer vollständig ausreichenden Statistik geschehen. es ist in gewissem Sinne maximal informativ, da keine Funktionen davon nicht informativ sind. Wenn andererseits eine Funktion der minimal ausreichenden Statistik mit der Erwartung Null vorliegt, die als Rauschausdruck angesehen werden könnte , haben die Störungs- / Rauschausdrücke in Modellen die Erwartung Null. Wir könnten also sagen, dass nicht vollständige ausreichende Statistiken Rauschen enthalten .
Sehen Sie sich in diesem Beispiel noch einmal den Bereich R=X(n)−X(1) an. Da seine Verteilung nicht von θ abhängt , enthält es allein keine Informationen über θ . Aber zusammen mit der ausreichenden Statistik macht es! Wie? Betrachten Sie den Fall, in dem R=1 beobachtet wird. Dann haben wir im Kontext unseres (als wahr bekannten) Modells die perfekte Kenntnis von θ ! Wir können nämlich mit Sicherheit sagen, dass θ=X(1) . Sie können jeden anderen Wert für θ überprüfenθdann führt dies dazu, dass entweder X(1) oder X(n) unter dem angenommenen Modell eine unmögliche Beobachtung ist. Wenn wir dagegen R=0.1 , ist der Bereich der möglichen Werte für θ ziemlich groß (Übung ...).
In diesem Sinne enthält die Zusatzstatistik R einige Informationen über die Genauigkeit, mit der wir θ basierend auf diesen Daten und diesem Modell schätzen können . In diesem und anderen Beispielen übernimmt die Zusatzstatistik R "die Rolle der Stichprobengröße". Normalerweise benötigen Konfidenzintervalle und solche die Stichprobengröße n , aber in diesem Beispiel können wir ein bedingtes Konfidenzintervall erstellen, das nur mit R berechnet wird , nicht mit n (Übung). Dies war eine Idee von Fisher, von der Inferenz abhängig gemacht werden sollte eine zusätzliche Statistik.
Nun, Basus Theorem: Wenn T vollständig genug ist, dann ist es unabhängig von irgendwelchen Hilfsstatistiken. Das heißt, eine auf einer vollständig ausreichenden Statistik basierende Folgerung ist einfacher, da wir keine bedingte Folgerung berücksichtigen müssen. Die Konditionierung auf eine von T unabhängige Statistik ändert natürlich nichts.
Dann ein letztes Beispiel, um mehr Intuition zu vermitteln. Ändern Sie unser Beispiel für die Gleichverteilung in eine Gleichverteilung für das Intervall (θ1,θ2) (mitθ1<θ2 ). In diesem Falldie Statistik(X(1),X(n)) istvollständig und ausreichend. Was hat sich geändert? Wir können sehen, dass Vollständigkeit wirklich eine Eigenschaft desModells ist. Im ersten Fall hatten wir einen eingeschränkten Parameterraum. Diese Einschränkung zerstörte die Vollständigkeit, indem sie Zusammenhänge in die Auftragsstatistik einführte. Durch die Aufhebung dieser Einschränkung haben wir Vollständigkeit erhalten! In gewissem Sinne bedeutet Unvollständigkeit, dass der Parameterraum nicht groß genug ist, und wir können hoffen, durch Vergrößerung die Vollständigkeit wiederherzustellen (und damit den Rückschluss zu erleichtern).
Einige andere Beispiele, bei denen ein Mangel an Vollständigkeit durch Einschränkungen des Parameterraums verursacht wird,
siehe meine Antwort auf: Was für Informationen sind Fisher-Informationen?
Sei X1,…,Xn iidCauchy(θ,σ) (ein Standortskalenmodell). Dann reicht die Bestellstatistik aber nicht aus. Aber jetzt vergrößern Sie dieses Modell auf ein vollständig nichtparametrisches Modell, das immer noch von einer vollständig nicht spezifizierten DistributionF . Dann ist die Auftragsstatistik ausreichend und vollständig.
Für Exponentialfamilien mit kanonischem Parameterraum (das heißt, so groß wie möglich) ist die minimale ausreichende Statistik ebenfalls vollständig. In vielen Fällen führt die Einführung von Einschränkungen des Parameterraums wie bei gekrümmten Exponentialfamilien jedoch zu einer Zerstörung der Vollständigkeit.
Ein sehr relevantes Papier ist eine Interpretation der Vollständigkeit und Basus Theorem.