(Die folgende Antwort führt lediglich den in [0] bewiesenen Satz ein und gibt ihn wieder. Das Schöne an diesem Aufsatz ist, dass die meisten Argumente in Bezug auf die lineare Grundalgebra vorgebracht werden. Um diese Frage zu beantworten, reicht es aus, die Hauptergebnisse anzugeben, aber Überprüfen Sie auf jeden Fall die Originalquelle.
In jeder Situation, in der das multivariate Muster der Daten durch eine variable elliptische Verteilung beschrieben werden kann , reduziert sich die statistische Inferenz per Definition auf das Problem der Anpassung (und Charakterisierung) eines k- variablen Ortsvektors (z. B. θ ) und eines k durch k symmetrische semipositive definite Matrix (sagen wir Σ ) zu den Daten. Aus Gründen, die ich im Folgenden erläutere (von denen Sie jedoch bereits ausgehen), ist es oft sinnvoller, Σ in eine Formkomponente (eine SPSD-Matrix mit der gleichen Größe wie Σ ) zu zerlegen, die die Form der Dichtekonturen Ihrer multivariaten Verteilung berücksichtigt und ein Skalar σ SkkθkkΣΣΣσS den Maßstab dieser Konturen auszudrücken.
In univariate Daten ( ), Σ , die Kovarianzmatrix Ihrer Daten ist ein Skalar und, wie aus der nachfolgenden Diskussion folgen wird, ist die Form Komponente von Σ ist 1 , so dass Σ gleich seine Skala Komponente Σ = σ S immer und es ist keine Mehrdeutigkeit möglich.k = 1ΣΣΣΣ= σS
In multivariaten Daten sind viele Skalierungsfunktionen möglich. Eins insbesondere ( σ S = | ΣσS ) zeichnet sich durch eine wünschenswerte Schlüsseleigenschaft aus. Dies sollte es zur bevorzugten Wahl des Skalierungsfaktors im Kontext elliptischer Familien machen.σS= | ΣΣ|1 / k
Viele Probleme in der MV-Statistik betreffen die Schätzung einer Streumatrix, die als Funktion (al)
symmetrischer, halbpositiver Definit in R k × k definiert ist und die folgende Bedingungen erfüllt:ΣRk × k
(für nicht singuläre Matrizen A und Vektoren , b ). Zum Beispiel erfüllt die klassische Kovarianzschätzung (0), ist aber keineswegs die einzige.
(0 )Σ( A X+ b ) = A Σ( X) A⊤
EINb
Bei elliptisch verteilten Daten, bei denen alle Dichtekonturen Ellipsen sind, die durch dieselbe Formmatrix definiert sind, ist es bis zur Multiplikation mit einem Skalar selbstverständlich, normalisierte Versionen von der Form zu berücksichtigen :Σ
VS= Σ/ S( Σ)
wobei eine 1-honogene Funktion ist, die erfüllt:S
( 1 )S( λ Σ) = λ S( Σ)
für alle . Dann V S ist die Form - Komponente der Streumatrix (in Kurzform - Matrix) und genannte σ S = S 1 / 2 ( Σ ) ist der Maßstab Komponente der Streumatrix bezeichnet. Beispiele für multivariate Schätzprobleme, bei denen die Verlustfunktion nur von Σ durch ihre Formkomponente V S abhängt, umfassen Tests der Sphärizität, PCA und CCA unter anderem.λ>0VSσS=S1/2(Σ)ΣVS
Natürlich gibt es viele mögliche Skalierungsfunktionen, so dass immer noch die Frage offen bleibt, was (wenn überhaupt) von mehreren Auswahlmöglichkeiten der Normalisierungsfunktion in gewissem Sinne optimal ist. Beispielsweise:S
- (zum Beispiel der von @amoeba in seinem Kommentar unter der Frage des OP vorgeschlagene. Siehe auch [1], [2], [3])S=tr(Σ)/k
- ([4], [5], [6], [7], [8])S=|Σ|1/k
- (der erste Eintrag der Kovarianzmatrix)Σ11
- (der erste Eigenwert von Σ )λ1(Σ)Σ
Es gilt jedoch ist die einzige Skalierungsfunktion, für die die Fisher-Informationsmatrix für die entsprechenden Schätzungen von Maßstab und Form in lokal asymptotisch normalen Familien blockdiagonal ist (dh der Maßstab und die Formkomponenten des Schätzproblems sind asymptotisch orthogonal) [0] ]. Dies bedeutet unter anderem, dass die Skalenfunktion S = | Σ | 1 / k ist die einzige Wahl von S, für die die Nichtspezifikation von & sgr; S keinen Wirkungsgradverlust verursacht, wenn eine Folgerung an V S durchgeführt wird .S=|Σ|1/kS=|Σ|1/kSσSVS
Ich kenne keine vergleichsweise starke Optimalitätscharakterisierung für eine der vielen möglichen Entscheidungen von , die (1) erfüllen.S
- [0] Paindaveine, D., Eine kanonische Definition der Form, Statistics & Probability Letters, Band 78, Ausgabe 14, 1. Oktober 2008, Seiten 2240-2247. Ungated Link
- [1] Dumbgen, L. (1998). Über Tylers M-Funktional der Streuung in hohen Dimensionen, Ann. Inst. Statist. Mathematik. 50, 471–491.
- [2] Ollila, E., TP Hettmansperger und H. Oja (2004). Affine äquivariante multivariate Vorzeichenmethoden. Preprint, Universität Jyväskylä.
- [3] Tyler, DE (1983). Robustheits- und Effizienzmerkmale von Streumatrizen, Biometrika 70, 411–420.
- [4] Dumbgen, L. und DE Tyler (2005). Zu den Durchschlusseigenschaften einiger multivariater M-Funktionalen hat Scand. J. Statist. 32, 247–264.
- [5] Hallin, M. und D. Paindaveine (2008). Optimale rangbasierte Tests für die Homogenität der Streuung, Ann. Statist., Erscheinen.
- [6] Salibian-Barrera, M., S. Van Aelst und G. Willems (200 6). Hauptkomponentenanalyse basierend auf multivariaten MM-Schätzern mit schnellem und robustem Bootstrap, J. Amer. Statist. Assoc. 101, 1198–1211.
- [7] Taskinen, S., C. Croux, A. Kankainen, E. Ollila und H. O. Ja (2006). Einflussfunktionen und Wirkungsgrade der kanonischen Korrelation und Vektorschätzungen basierend auf Streu- und Formmatrizen, J. Multivariate Anal. 97, 359–384.
- [8] Tatsuoka, KS und DE Tyler (2000). Zur Einzigartigkeit von S-Funktionalen und M-Funktionalen unter nichtelliptischen Verteilungen, Ann. Statist. 28, 1219–1243.