Beispiele für PCA, bei denen PCs mit geringer Varianz "nützlich" sind


24

Normalerweise werden bei der Hauptkomponentenanalyse (PCA) die ersten PCs verwendet und die PCs mit niedriger Varianz fallen gelassen, da sie nicht viel von der Variation der Daten erklären.

Gibt es jedoch Beispiele, bei denen die PCs mit geringen Abweichungen nützlich sind (dh im Kontext der Daten verwendet werden, eine intuitive Erklärung haben usw.) und nicht weggeworfen werden sollten?


5
Schon einige. Siehe PCA, Zufälligkeit der Komponente? Dies kann sogar ein Duplikat sein, aber Ihr Titel ist viel klarer (daher wahrscheinlich leichter zu finden durch Suchen). Löschen Sie ihn daher nicht, auch wenn er als solcher geschlossen wird.
Nick Stauner

Antworten:


18

Hier ist ein cooler Auszug aus Jolliffe (1982) , den ich in meiner vorherigen Antwort auf die sehr ähnliche Frage " Komponenten mit geringer Varianz in PCA, sind sie wirklich nur Rauschen? Gibt es eine Möglichkeit, dies zu testen? ", Nicht erwähnt es ist ziemlich intuitiv.

Angenommen, es ist erforderlich, die Höhe der Wolkenbasis vorherzusagen , ein wichtiges Problem an Flughäfen. Verschiedene Klimavariablen werden gemessen, einschließlich der Oberflächentemperatur T s und des Oberflächentaupunkts T d . Hierbei ist T d die Temperatur, bei der die Oberflächenluft mit Wasserdampf gesättigt wäre, und die Differenz T s - T d ist ein Maß für die Oberflächenfeuchtigkeit. Jetzt T s , T d werden im allgemeinen positiv korreliert, so dass eine Hauptkomponentenanalyse der Klimavariablen wird eine hohe Varianz Komponente aufweisen , die stark korreliert ist mit THTsTdTdTsTdTs,Td und eine Komponente mit niedriger Varianz, die in ähnlicher Weise mit T s - T d korreliert. Aber H wird auf FeuchtigkeitZusammenhang und damit zu T s - T d ,heißt auf eine niedrige Varianz eher als eine hohe Varianz Komponente, so eine Strategiedie Komponentenniedriger Varianz lehnt werden schlechte Prognosen für geben H .Ts+TdTs-TdHTs-TdH
Die Diskussion dieses Beispiels ist aufgrund der unbekannten Auswirkungen anderer klimatischer Variablen, die ebenfalls gemessen und in die Analyse einbezogen werden, notwendigerweise vage. Es zeigt jedoch einen physikalisch plausiblen Fall, in dem eine abhängige Variable mit einer Komponente geringer Varianz in Beziehung steht, was die drei empirischen Beispiele aus der Literatur bestätigt.
Darüber hinaus wurde das Cloud-Base-Beispiel anhand von Daten des Flughafens Cardiff (Wales) für den Zeitraum von 1966 bis 1973 getestet, wobei auch eine zusätzliche Klimavariable, die Meeresoberflächentemperatur, enthalten war. Die Ergebnisse waren im Wesentlichen wie oben prognostiziert. Die letzte Hauptkomponente war ungefähr und machte nur 0,4 Prozent der Gesamtschwankung aus. Jedoch in einer Hauptkomponentenregression war es leicht der wichtigste Prädiktor für H . [Betonung hinzugefügt]Ts-TdH

Die drei Beispiele aus der Literatur, auf die im letzten Satz des zweiten Absatzes Bezug genommen wird, sind die drei, die ich in meiner Antwort auf die verknüpfte Frage erwähnt habe .


Referenz
Jolliffe, IT (1982). Hinweis zur Verwendung von Hauptkomponenten in der Regression. Applied Statistics, 31 (3), 300–303. Abgerufen von http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .


V(EIN+B)=V(EIN)+V(B)+2COv(EIN,B)V(AB)=V(A)+V(B)2Cov(A,B)TsTd

+1, das ist ein schönes Beispiel. Interessanterweise ist es auch ein Beispiel für Unterdrückung.
gung - Reinstate Monica

17

Wenn Sie R haben, gibt es ein gutes Beispiel für die crabsDaten im MASS-Paket.

> library(MASS)
> data(crabs)
> head(crabs)

  sp sex index   FL  RW   CL   CW  BD
1  B   M     1  8.1 6.7 16.1 19.0 7.0
2  B   M     2  8.8 7.7 18.1 20.8 7.4
3  B   M     3  9.2 7.8 19.0 22.4 7.7
4  B   M     4  9.6 7.9 20.1 23.1 8.2
5  B   M     5  9.8 8.0 20.3 23.0 8.2
6  B   M     6 10.8 9.0 23.0 26.5 9.8

> crabs.n <- crabs[,4:8]
> pr1 <- prcomp(crabs.n, center=T, scale=T)
> cumsum(pr1$sdev^2)/sum(pr1$sdev^2)
[1] 0.9577670 0.9881040 0.9974306 0.9996577 1.0000000

Über 98% der Varianz werden von den ersten beiden PCs "erklärt". Wenn Sie diese Messungen jedoch tatsächlich gesammelt und untersucht haben, ist der dritte PC sehr interessant, da er eng mit der Krebsart verwandt ist. Aber es wird von PC1 (was anscheinend der Größe der Krabbe entspricht) und PC2 (was anscheinend dem Geschlecht der Krabbe entspricht) überflutet.

Bildbeschreibung hier eingeben

Bildbeschreibung hier eingeben


2
+1, das ist eine wirklich nette Demonstration. Ich habe 2 Scatterplot-Matrizen erstellt, die hinzugefügt werden können, wenn Sie möchten.
gung - Wiedereinsetzung von Monica

1
@gung: Danke für das Hinzufügen der Streudiagramme! Ich habe diese Antwort schon einmal positiv bewertet, sie aber nicht vollständig gewürdigt, ohne die Handlungen gesehen zu haben. Das Streudiagramm PC2 gegen PC3 ist wirklich schön: Es trennt beide Geschlechter und Arten fast perfekt. Ich mag dieses Beispiel auch, weil es zeigt, was passiert, wenn alle Variablen stark positiv korreliert sind (dh PC1 erklärt viele Varianzen und ist im Grunde genommen ein Durchschnitt).
Amöbe sagt Reinstate Monica

1
Danke, @amoeba. Ich mag die Art und Weise, wie sie sich herausstellten. Ich habe viel Zeit damit verbracht, mit ihnen zu fummeln (Farben, Pch, Etiketten, Legende). Eigentlich finde ich sie jetzt ziemlich hübsch. Sie machen einen guten Punkt über PC1. Wir können auch sehen, dass es (wahrscheinlich) einen konstanten Variationskoeffizienten und eine Wechselwirkung nach Geschlecht und / oder Art in vielen Beziehungen gibt: Kleine (Baby-?) Krabben tendieren dazu, ungeachtet des Geschlechts oder der Art dieselben Werte zu haben, aber als sie wachsen (Alter?) sie werden deutlicher. Es gibt viele nette Dinge zu sehen - Sie können sie einfach weiter ansehen.
gung - Wiedereinsetzung von Monica

8

Hier sind zwei Beispiele aus meiner Erfahrung (Chemometrie, optische / Vibrations- / Raman-Spektroskopie):

  • Ich hatte kürzlich optische Spektroskopiedaten, bei denen> 99% der Gesamtvarianz der Rohdaten auf Änderungen des Hintergrundlichts zurückzuführen waren (Scheinwerfer mehr oder weniger intensiv auf den gemessenen Punkt, Leuchtstofflampen ein- / ausgeschaltet, mehr oder weniger Wolken vorher) Die Sonne). Nach einer Hintergrundkorrektur mit den optischen Spektren bekannter Einflussfaktoren (extrahiert von PCA aus den Rohdaten; zusätzliche Messungen zur Abdeckung dieser Variationen) zeigte sich der Effekt, an dem wir interessiert waren, an PC 4 und 5.
    PC 1 und 3, wo aufgrund anderer Effekte in der gemessenen Probe und PC 2 korreliert mit der Erwärmung der Instrumentenspitze während der Messungen.

  • Bei einer anderen Messung wurde eine Linse ohne Farbkorrektur für den gemessenen Spektralbereich verwendet. Die chromatische Aberration führte zu Verzerrungen in den Spektren, die ca. 90% der Gesamtvarianz der vorverarbeiteten Daten (meist in PC 1 erfasst).
    Für diese Daten brauchten wir eine Weile, um zu erkennen, was genau passiert war, aber der Wechsel zu einem besseren Objektiv löste das Problem für spätere Experimente.

(Ich kann keine Details zeigen, da diese Studien noch nicht veröffentlicht sind.)


3

Ich habe festgestellt, dass PCs mit geringer Varianz am hilfreichsten sind, wenn eine PCA in einer Kovarianzmatrix durchgeführt wird, in der die zugrunde liegenden Daten auf irgendeine Weise gruppiert oder gruppiert sind. Wenn eine der Gruppen eine wesentlich geringere durchschnittliche Varianz aufweist als die anderen Gruppen, wird der kleinste PC von dieser Gruppe dominiert. Möglicherweise haben Sie jedoch einen Grund, die Ergebnisse dieser Gruppe nicht wegzuwerfen.

In der Finanzbranche weisen Aktienrenditen eine jährliche Standardabweichung von ca. 15-25% auf. Veränderungen der Anleiherenditen weisen historisch gesehen eine viel geringere Standardabweichung auf. Wenn Sie eine PCA für die Kovarianzmatrix der Aktienrenditen und Änderungen der Anleiherenditen durchführen, spiegeln alle Top-PCs die Varianz der Aktien wider, und die kleinsten spiegeln die Varianz der Anleihen wider. Wenn Sie die PCs wegwerfen, die die Bindungen erklären, könnten Sie in Schwierigkeiten geraten. Beispielsweise können die Anleihen andere Verteilungseigenschaften aufweisen als Aktien (dünnere Schwänze, unterschiedliche zeitvariable Varianzmerkmale, unterschiedliche mittlere Umkehrung, Kointegration usw.). Abhängig von den Umständen kann es sehr wichtig sein, diese zu modellieren.

Wenn Sie eine PCA für die Korrelationsmatrix durchführen, sehen Sie möglicherweise mehr PCs, die Bindungen im oberen Bereich erklären.


Diese Antwort ist sehr schwer zu verstehen, wenn man nicht weiß, was Aktien, Anleihen, Renditen und Renditen sind. Ich weiß nicht, und deshalb kann ich nicht sehen, wie Ihr erster Satz mit Ihrem zweiten zusammenhängt ...
Amöbe sagt Reinstate Monica

1
Ich habe einige Änderungen vorgenommen.
John

1

In diesem Vortrag ( Folien ) diskutieren die Vortragenden ihre Verwendung von PCA, um zwischen Merkmalen mit hoher Variabilität und Merkmalen mit niedriger Variabilität zu unterscheiden.

Sie bevorzugen tatsächlich die Merkmale mit geringer Variabilität für die Erkennung von Anomalien, da eine signifikante Verschiebung in einer Dimension mit geringer Variabilität ein starker Indikator für anomales Verhalten ist. Das motivierende Beispiel lautet wie folgt:

Angenommen, ein Benutzer meldet sich immer von einem Mac an. Die "Betriebssystem" -Dimension ihrer Aktivität wäre eine sehr geringe Varianz. Aber wenn wir ein Anmeldeereignis von demselben Benutzer sehen würden, bei dem das "Betriebssystem" Windows war, wäre das sehr interessant und etwas, das wir gerne abfangen würden.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.