Warum stabilisieren wir die Varianz?

Beim Lesen der Kaggle-Essay-Eval-Methode bin ich auf eine varianzstabilisierende Transformation gestoßen . Sie verwenden eine Varianzstabilisierungstransformation, um Kappa-Werte zu transformieren, bevor sie ihren Mittelwert bilden und sie dann zurücktransformieren. Obwohl ich das Wiki über Varianzstabilisierende Transformationen gelesen habe, kann ich nicht verstehen, warum wir Varianzen tatsächlich stabilisieren. Welchen Nutzen ziehen wir daraus?

variance mathematical-statistics

— Pushpendre
quelle

In der Regel soll die (asymptotische) Varianz von dem interessierenden Parameter unabhängig gemacht werden. Dies ist insbesondere dann wichtig, wenn wir die Referenzverteilung kennen müssen, um relevante Mengen zu berechnen.

— Kardinal

Hier ist eine Antwort: In der Regel ist die effizienteste Methode zum Durchführen statistischer Inferenzen, wenn Ihre Daten erfasst werden. Wenn dies nicht der Fall ist, erhalten Sie unterschiedliche Informationsmengen aus unterschiedlichen Beobachtungen, was weniger effizient ist. Eine andere Sichtweise ist, dass Sie im Allgemeinen die Genauigkeit Ihrer Schätzungen zumindest asymptotisch verbessern, wenn Sie Ihrer Inferenz zusätzliche Informationen hinzufügen können (dh die funktionale Form der Varianz über die Varianzstabilisierungstransformation). Bei sehr kleinen Stichproben kann die Modellierung der Varianz die Tendenz zu kleinen Stichproben erhöhen. Dies ist eine Art ökonometrisches GMM-Argument: Wenn Sie zusätzliche Momente hinzufügen, kann Ihre asymptotische Varianz nicht steigen. und Ihre Vorspannung für endliche Stichproben nimmt mit den überbestimmten Freiheitsgraden zu.

Eine andere Antwort wurde von Kardinal gegeben: Wenn Sie eine unbekannte Varianz in Ihrem asymptotischen Varianzausdruck haben, ist die Konvergenz auf die asymptotische Verteilung langsamer und Sie müssten diese Varianz irgendwie abschätzen. Das Vorab-Pivoting Ihrer Daten oder Statistiken trägt normalerweise zur Verbesserung der Genauigkeit asymptotischer Approximationen bei.

— StasK
quelle

Ich glaube, ich verstehe den ersten Satz Ihrer Antwort und er spricht mich intuitiv an. Gibt es einen Namen für diese Beobachtung, den ich googeln könnte? Ich möchte einige Gedankenexperimente oder Beispiele finden, die zeigen, was passiert, wenn Sie in verschiedenen Beobachtungen unterschiedliche Informationsmengen haben und wie ineffizient das ist

— Pushpendre

Korn & Graubard (1999), Text zur Umfragestatistik, diskutiert dies.

— StasK

Aber hier wird die Transformation verwendet, um einen Mittelwert durch zu berechnen

f^{- 1} (\frac{1}{n} \sum_{i} f (κ_{i}))

$f^{-1}\left( {1\over n} \sum_i f(\kappa_i) \right)$

@PushpendreRastogi Vielleicht möchten Sie den Wikipedia-Artikel über diese Transformation lesen . Es wurde von Fisher eingeführt, um die Varianz eines empirischen Korrelationskoeffizienten (zwischen normalen Variablen) zu stabilisieren. In diesem Fall ist die transformierte Variable ungefähr normal, wobei die Varianz nur von der Stichprobengröße und nicht vom unbekannten Korrelationskoeffizienten abhängt (aus diesem Grund „stabilisiert“ dies die Varianz).

— Elvis

@Elvis, ich habe das Korrelationsbeispiel im Wikipedia-Artikel zur Pivotal-Statistik angegeben ( en.wikipedia.org/wiki/Pivotal_statistic ). [Wie um alles in der Welt haben Sie den netten Link im Kommentar angegeben? Ich habe versucht, eine Href, es sah hässlich aus.]

— StasK