Hier ist ein einfaches Spielzeugbeispiel, das den Effekt der Dimension in einem Diskriminierungsproblem veranschaulicht, z. B. das Problem, mit dem Sie konfrontiert sind, wenn Sie sagen möchten, ob etwas beobachtet wird oder nur ein zufälliger Effekt beobachtet wird (dieses Problem ist ein Klassiker der Wissenschaft).
Heuristik. Das Hauptproblem hierbei ist, dass die euklidische Norm jeder Richtung die gleiche Bedeutung beimisst. Dies stellt einen Mangel an Vorkenntnissen dar, und wie Sie sicherlich in großen Dimensionen wissen, gibt es kein kostenloses Mittagessen (dh wenn Sie keine Ahnung haben, wonach Sie suchen, gibt es keinen Grund, warum ein Geräusch nicht so aussieht, wie Sie sind) auf der Suche nach, das ist Tautologie ...).
Ich würde sagen, dass es für jedes Problem eine Informationsgrenze gibt, die erforderlich ist, um etwas anderes als Lärm zu finden. Diese Grenze hängt in gewisser Weise mit der "Größe" des Gebiets zusammen, das Sie im Hinblick auf den "Geräusch" -Pegel (dh den Gehalt an nicht informativen Inhalten) erkunden möchten.
In großen Dimensionen können Sie, wenn Sie vorher festgestellt haben, dass Ihr Signal spärlich ist, nicht spärliche Vektoren mit einer Metrik entfernen (dh benachteiligen), die den Raum mit spärlichen Vektoren ausfüllt, oder mithilfe einer Schwellenwerttechnik.
Rahmen Angenommen, ein Gaußschen Vektor mit Mittelwert und diagonale Kovarianz ( bekannt ist ) und dass Sie die einfache Hypothese zu testen ,ξνσIdσ
H0:ν=0,VsHθ:ν=θ
(für ein gegebenes ) ist nicht unbedingt im Voraus bekannt.
θ∈Rnθ
Teststatistik mit Energie . Die Intuition, die Sie sicherlich haben, ist, dass es eine gute Idee ist, die Norm / Energie Ihrer Beobachtung , um eine Teststatistik zu erstellen. Tatsächlich können Sie eine standardisierte zentrierte (unter ) Version der Energie . Das macht einen kritischen Bereich auf Ebene der Form für ein gut ausgewähltesEn=1n∑ni=1ξ2iξH0TnTn=∑iξ2i−σ22nσ4√α{Tn≥v1−α}v1−α
Kraft der Prüfung und Dimension. In diesem Fall ist es eine einfache Wahrscheinlichkeitsübung, die folgende Formel für die Stärke Ihres Tests zu zeigen:
Pθ(T≤v1−α)=P⎛⎝⎜Z≤v1−α1+2∥θ∥22/(nσ2)−−−−−−−−−−−−−√−∥θ∥222nσ4+2σ2∥θ∥22/(nσ2)−−−−−−−−−−−−−−−−−−√⎞⎠⎟
mit eine Summe von iid Zufallsvariablen mit und .ZnE[Z]=0Var(Z)=1
Dies bedeutet, dass die Leistung Ihres Tests um die Energie Ihres Signals und um verringert wird . In der Praxis bedeutet dies, dass Sie, wenn Sie die Größe Ihres Problems erhöhen und gleichzeitig die Signalstärke nicht erhöhen, Ihrer Beobachtung nicht aussagekräftige Informationen hinzufügen (oder den Anteil nützlicher Informationen in den Informationen verringern) Sie haben): Dies ist wie das Hinzufügen von Rauschen und reduziert die Leistung des Tests (dh es ist wahrscheinlicher, dass Sie sagen, dass nichts beobachtet wird, während tatsächlich etwas vorhanden ist).∥θ∥22nn
Auf dem Weg zu einem Test mit einer Schwellenwertstatistik. Wenn Sie nicht viel Energie in Ihrem Signal haben, aber eine lineare Transformation kennen, die Ihnen dabei hilft, diese Energie in einem kleinen Teil Ihres Signals zu konzentrieren, können Sie eine Teststatistik erstellen, die nur die Energie für die Kleinen auswertet Teil Ihres Signals. Wenn Sie im Voraus wissen, wo es konzentriert ist (zum Beispiel, dass es keine hohen Frequenzen in Ihrem Signal geben kann), können Sie im vorhergehenden Test eine Leistung erhalten, bei der durch eine kleine Zahl und fast ersetzt wird das gleiche ... Wenn Sie es nicht im Voraus wissen, müssen Sie es abschätzen, dies führt zu bekannten Schwellenwerttests.n∥θ∥22
Beachten Sie, dass dieses Argument genau die Wurzel vieler Papiere ist, wie z
- Ein Antoniadis, F. Abramovich, T. Sapatinas und B. Vidakovic. Wavelet-Methoden zur Funktionsanalyse von Varianzmodellen. International Journal on Wavelets and its applications, 93: 1007–1021, 2004.
- MV Burnashef und Begmatov. Ein Problem der Signalerkennung führt zu einer stabilen Verteilung. Wahrscheinlichkeitstheorie und ihre Anwendungen, 35 (3): 556–560, 1990.
- Y. Baraud. Nicht asymptotische Minimax-Testrate bei der Signalerkennung. Bernoulli, 8: 577–606, 2002.
- J Fan. Signifikanztest basierend auf Wavelet-Thresholding und Neyman-Trunkierung. JASA, 91: 674–688, 1996.
- J. Fan und SK Lin. Signifikanztest, wenn Daten Kurven sind. JASA, 93: 1007–1021, 1998.
- V. Spokoiny. Testen adaptiver Hypothesen unter Verwendung von Wavelets. Annals of Statistics, 24 (6): 2477–2498, Dezember 1996.