Kann jemand bitte genügend Statistiken in sehr grundlegenden Begriffen erläutern ? Ich komme aus dem technischen Bereich und habe viele Dinge durchgearbeitet, aber keine intuitive Erklärung gefunden.
Kann jemand bitte genügend Statistiken in sehr grundlegenden Begriffen erläutern ? Ich komme aus dem technischen Bereich und habe viele Dinge durchgearbeitet, aber keine intuitive Erklärung gefunden.
Antworten:
Eine ausreichende Statistik fasst alle in einer Stichprobe enthaltenen Informationen zusammen, sodass Sie dieselbe Parameterschätzung vornehmen können, unabhängig davon, ob wir Ihnen die Stichprobe oder nur die Statistik selbst gegeben haben. Es ist die Reduzierung der Daten ohne Informationsverlust.
Hier ist ein Beispiel. Angenommen, hat eine symmetrische Verteilung um Null. Anstatt Ihnen eine Stichprobe zu geben, gebe ich Ihnen stattdessen eine Stichprobe mit absoluten Werten (das ist die Statistik). Das Schild ist nicht zu sehen. Sie wissen jedoch, dass die Verteilung symmetrisch ist, sodass für einen gegebenen Wert , und gleich wahrscheinlich sind (die bedingte Wahrscheinlichkeit beträgt ). Sie können also eine faire Münze werfen. Wenn es Köpfe kommt, machen Sie das negativ. Wenn Schwänze, machen Sie es positiv. Dies gibt Ihnen eine Stichprobe von , die die gleiche Verteilung wie die ursprünglichen Daten . Grundsätzlich konnten Sie die Daten aus der Statistik rekonstruieren. Das macht es aus.x - x x 0,5 x X '
In Bayes'schen Begriffen haben Sie eine beobachtbare Eigenschaft und einen Parameter . Die gemeinsame Verteilung für ist angegeben, wird jedoch als bedingte Verteilung von und die vorherige Verteilung von berücksichtigt . Eine Statistik ist ausreichend , um für dieses Modell , wenn und nur wenn die a posteriori Verteilung von ist das gleiche wie die der , für jeden der frühere Verteilung . In Worten, Ihre aktualisierte Unsicherheit über nach Kenntnis des Wertes von ist dieselbe wie Ihre aktualisierte Unsicherheit überΘ Θ X Θ T ( X ) nach Kenntnis des Wertes von , unabhängig davon , welche Vorinformationen Sie über Θ haben . Denken Sie daran, dass Suffizienz ein modellabhängiges Konzept ist.
Angenommen, Sie haben eine Münze und wissen nicht, ob sie fair ist oder nicht. Mit anderen Worten, es hat die Wahrscheinlichkeit, dass Köpfe ( ) und Schwänze ( ) hochkommen , und Sie kennen den Wert von .
Sie versuchen, eine Vorstellung vom Wert von indem Sie die Münze mehrmals werfen, z. B. mal.
Nehmen wir an, und das Ergebnis ist die Sequenz .
Nun möchten Sie, dass Ihr statistischer Freund den Wert von für Sie schätzt und Ihnen vielleicht sagt, ob die Münze wahrscheinlich fair ist oder nicht. Welche Informationen müssen Sie ihnen mitteilen, damit sie ihre Berechnungen durchführen und ihre Schlussfolgerungen ziehen können?
Sie könnten ihnen alle Daten mitteilen, dh . Ist das aber notwendig? Können Sie diese Daten zusammenfassen, ohne relevante Informationen zu verlieren?
Es ist klar, dass die Reihenfolge der Münzwürfe irrelevant ist, da Sie für jeden Münzwurf dasselbe getan haben und sich die Münzwürfe nicht gegenseitig beeinflusst haben. Wenn stattdessen beispielsweise das Ergebnis , werden unsere Schlussfolgerungen nicht anders ausfallen. Daraus folgt, dass Sie Ihrem statistischen Freund nur noch mitteilen müssen, wie viele Köpfe es gab.
Wir drücken dies aus, indem wir sagen, dass die Anzahl der Köpfe eine ausreichende Statistik für p ist .
Dieses Beispiel gibt den Geschmack des Konzepts. Lesen Sie weiter, wenn Sie sehen möchten, wie es mit der formalen Definition zusammenhängt.
Formal ist eine Statistik für einen Parameter ausreichend, wenn die Wahrscheinlichkeitsverteilung der Ergebnisse angesichts des Werts der Statistik den Parameter nicht einbezieht.