Warum sollten die Daten protokolliert werden, bevor eine Hauptkomponentenanalyse durchgeführt wird?


16

Ich folge hier einem Tutorial: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/ um ein besseres Verständnis von PCA zu erlangen.

Das Lernprogramm verwendet das Iris-Dataset und wendet eine Protokolltransformation vor PCA an:

Beachten Sie, dass wir im folgenden Code eine Protokolltransformation auf die kontinuierlichen Variablen anwenden, wie in [1] vorgeschlagen, centerund im Aufruf zum Standardisieren der Variablen vor der Anwendung von PCA setzen und scalegleich setzen .TRUEprcomp

Könnte mir jemand im Klartext erklären, warum Sie zuerst die Protokollfunktion in den ersten vier Spalten des Iris-Datensatzes verwenden. Ich verstehe, dass es etwas damit zu tun hat, Daten relativ zu machen, aber ich bin verwirrt, was genau die Funktion von Protokoll, Mittelpunkt und Maßstab ist.

Der obige Verweis [1] bezieht sich auf Venables und Ripley, Modern Applied Statistics mit S-PLUS , Abschnitt 11.1, in dem kurz gesagt wird:

Bei den Daten handelt es sich um physikalische Messungen. Daher ist es eine fundierte Anfangsstrategie, auf der Log-Skala zu arbeiten. Dies wurde überall getan.


Antworten:


19

Der Iris-Datensatz ist ein gutes Beispiel für das Erlernen von PCA. Die ersten vier Spalten, die die Länge und Breite von Kelch- und Blütenblättern beschreiben, sind jedoch kein Beispiel für stark verzerrte Daten. Daher ändert die Protokolltransformation der Daten nicht viel an den Ergebnissen, da die resultierende Rotation der Hauptkomponenten durch die Protokolltransformation ziemlich unverändert bleibt.

In anderen Situationen ist die Protokolltransformation eine gute Wahl.

Wir führen PCA durch, um einen Einblick in die allgemeine Struktur eines Datensatzes zu erhalten. Wir zentrieren, skalieren und transformieren manchmal logarithmisch, um einige triviale Effekte herauszufiltern, die unseren PCA dominieren könnten. Der Algorithmus einer PCA ermittelt wiederum die Rotation jedes PCs, um die quadratischen Residuen zu minimieren, dh die Summe der quadratischen senkrechten Abstände von einer Probe zu den PCs. Große Werte haben tendenziell eine hohe Hebelwirkung.

Stellen Sie sich vor, Sie injizieren zwei neue Samples in die Irisdaten. Eine Blume mit 430 cm Blütenblattlänge und eine mit Blütenblattlänge von 0,0043 cm. Beide Blüten sind sehr abnormal und 100-mal größer bzw. 1000-mal kleiner als durchschnittliche Beispiele. Die Hebelwirkung der ersten Blume ist enorm, sodass die ersten PCs meist die Unterschiede zwischen der großen Blume und jeder anderen Blume beschreiben. Eine Häufung von Arten ist aufgrund dieses Ausreißers nicht möglich. Wenn die Daten log-transformiert werden, beschreibt der Absolutwert jetzt die relative Variation. Jetzt ist die kleine Blume die ungewöhnlichste. Trotzdem ist es möglich, alle Proben in einem Bild zusammenzufassen und eine gerechte Häufung der Arten zu gewährleisten. Schauen Sie sich dieses Beispiel an:

data(iris) #get data
#add two new observations from two new species to iris data
levels(iris[,5]) = c(levels(iris[,5]),"setosa_gigantica","virginica_brevis")
iris[151,] = list(6,3,  430  ,1.5,"setosa_gigantica") # a big flower
iris[152,] = list(6,3,.0043,1.5  ,"virginica_brevis") # a small flower

#Plotting scores of PC1 and PC" without log transformation
plot(prcomp(iris[,-5],cen=T,sca=T)$x[,1:2],col=iris$Spec)

Bildbeschreibung hier eingeben

#Plotting scores of PC1 and PC2 with log transformation
plot(prcomp(log(iris[,-5]),cen=T,sca=T)$x[,1:2],col=iris$Spec)

Bildbeschreibung hier eingeben


2
Schöne Demo und Handlungen.
Shadowtalker

3

Nun, die andere Antwort gibt ein Beispiel, wenn die Log-Transformation verwendet wird, um den Einfluss von Extremwerten oder Ausreißern zu reduzieren.
Ein anderes allgemeines Argument tritt auf, wenn Sie versuchen, Daten zu analysieren, die multiplikativ und nicht additiv zusammengesetzt sind - PCA- und FA-Modell durch ihre mathematischen Eigenschaften, wie additive Zusammensetzungen. MultiplikativKompositionen treten im einfachsten Fall bei physikalischen Daten wie der Oberfläche und dem Volumen von Körpern (funktional) auf, abhängig von (zum Beispiel) den drei Parametern Länge, Breite, Tiefe. Man kann die Kompositionen eines historischen Beispiels der frühen PCA reproduzieren, ich denke, es heißt "Thurstone's Ball- (oder 'Cubes'-) Problem" oder ähnliches. Einmal hatte ich mit den Daten dieses Beispiels gespielt und festgestellt, dass die logarithmisch transformierten Daten ein viel besseres und klareres Modell für die Zusammensetzung der gemessenen Volumen- und Oberflächendaten mit den drei eindimensionalen Maßen ergaben.

Neben einer solchen einfachen Beispielen, wenn wir in der Sozialforschung Daten betrachten Interaktionen , dann denken wir ususally ihnen sowie multiplikativ zusammengesetzt Messungen von mehr Grundelemente. Wenn wir uns also Wechselwirkungen genauer ansehen, kann eine Log-Transformation ein besonders hilfreiches Werkzeug sein, um ein mathematisches Modell für die Zerlegung zu erhalten.


Könnten Sie bitte einige Referenzen auflisten, die die "multipikativen" Kompositionen besser erklären könnten? Danke vielmals!
Amatya

1
@Amatya - Ich habe nicht das "Thurstone-Box-Problem" gefunden, sondern ein (deutsches) Site-Diskussions-Pca über Würfel, das Breite, Länge, Höhe als Grundelemente und Flächen und Volumen als multiplikativ kombinierte Zusatzelemente enthält. Vielleicht reichen die enthaltenen Formeln für Definitionen aus. Siehe sgipt.org/wisms/fa/Quader/q00.htm
Gottfried Helms

1
Ah, und ich habe vergessen - eine alte Diskussion von mir über diesen go.helms-net.de/stat/fa/SGIPT_Quader.htm
Gottfried Helms

@GottfriedHelms Ich verstehe immer noch nicht wirklich, warum wir, wenn wir die Variablen standardisieren, sie auch log-transformieren müssen. Ich verstehe das allgemeine Prinzip, den unerwünschten Einfluss extremer Ausreißer zu reduzieren, aber wenn wir sie bereits standardisieren (zentrieren, skalieren), scheint es, als würde eine Protokolltransformation die Daten zusätzlich verzerren.
Yu Chen

@YuChen - Jede logarithmische Transformation wandelt eine multiplikative Zusammensetzung in eine additive Zusammensetzung um, und die additive Zusammensetzung ist (neben der Linearität usw.) die Grundannahme für alle Arten von Komponenten- und Faktoranalysen. Wenn Ihre Daten also eine multiplikative Zusammensetzung haben, sollte eine Protokolltransformation in Betracht gezogen werden.
Gottfried Helms
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.