Verständnis dieser PCA-Darstellung der Eisverkäufe im Verhältnis zur Temperatur

9

Ich nehme Dummy-Daten der Temperatur im Vergleich zu Eisverkäufen und kategorisiere sie mit K-Mitteln (n Cluster = 2), um 2 Kategorien zu unterscheiden (total Dummy).

Jetzt mache ich eine Hauptkomponentenanalyse dieser Daten und mein Ziel ist es zu verstehen, was ich sehe. Ich weiß, dass das PCA-Ziel darin besteht, die Dimensionalität zu reduzieren (offensichtlich nicht in diesem Fall) und die Varianz der Elemente zu zeigen. Aber wie liest du das PCA-Diagramm unten, dh was ist die Geschichte, die du über die Temperatur im Vergleich zum Eis im PCA-Diagramm erzählen kannst ? Was bedeuten der 1. (X) und 2. (Y) PC?

— adhg
quelle

1

Dies sollte ein Kommentar sein, aber ich habe nicht genügend Repräsentanten. Der folgende Link ist ein hervorragendes Tutorial zu PCA. Insbesondere das Spielzeugbeispiel bietet eine gute Balance zwischen "einfach genug, um mit einem Bild verstanden zu werden" und "kompliziert genug, um als Analogie für zukünftige Probleme verwendet werden zu können". Ich denke, das Lesen könnte helfen, zu klären, was PCA für Sie tun kann und was nicht. cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

— Jason

18

Ich weiß, dass das PCA-Ziel darin besteht, die Dimensionalität zu reduzieren

Dies wird oft angenommen, aber tatsächlich ist PCA nur eine Darstellung Ihrer Daten auf orthogonaler Basis. Diese Basis hat immer noch die gleiche Dimension wie Ihre Originaldaten. Nichts ist verloren ... noch nicht. Der Teil zur Reduzierung der Dimensionalität liegt ganz bei Ihnen. PCA stellt sicher, dass die oberen Dimensionen Ihrer neuen Projektion die besten Dimensionen sind, als die Ihre Daten möglicherweise dargestellt werden könnten. Was bedeutet am besten? Hier kommt die erklärte Varianz ins Spiel. $k$ $k$

offensichtlich nicht in diesem Fall

Da wäre ich mir nicht so sicher! In Ihrem zweiten Diagramm sieht es so aus, als könnten viele Informationen aus Ihren Daten auf eine horizontale Linie projiziert werden. Das ist 1 Dimension anstelle der ursprünglichen Handlung, die in 2 Dimensionen war! Natürlich verlieren Sie einige Informationen, weil Sie die Y-Achse entfernen, aber ob dieser Informationsverlust für Sie akzeptabel ist, ist Ihr Anruf.

Es gibt eine Menge Fragen zu PCA auf der Website. Ich empfehle Ihnen daher, diese hier , hier , hier oder hier zu prüfen . Wenn Sie danach weitere Fragen haben, posten Sie diese bitte und ich helfe Ihnen gerne weiter.

Als Ihre eigentliche Frage:

Was ist die Geschichte, die Sie über die Temperatur im Vergleich zum Eis in der PCA-Handlung erzählen können?

Da die neuen Koordinatenachsen eine lineare Kombination der ursprünglichen Koordinaten sind, dann ... im Grunde nichts! PCA gibt Ihnen eine Antwort wie (Zahlen erfunden):

\begin{aligned} P C 1 & = 2.5 \times ice cream - 3.6 \times temperature \\ P C 2 & = - 1.5 \times ice cream + 0.6 \times temperature \end{aligned}

$\begin{split} \mathrm{PC1} &= 2.5\times \text{ice cream} - 3.6\times \text{temperature}\\ \mathrm{PC2} &= -1.5\times \text{ice cream} + 0.6\times \text{temperature} \end{split}$

Ist das nützlich für dich? Vielleicht. Aber ich würde nicht raten :)

Bearbeitet

Ich werde diese Ressource hinzufügen , die ich für hilfreich halte, da interaktive Diagramme cool sind.

Erneut bearbeitet

Um zu klären, was am besten bedeutet: $k$

PCA versucht, die Dimensionen zu finden, die die höchste Varianz ergeben, wenn die Daten auf sie projiziert werden. Angenommen, Ihre Daten haben Dimensionen, erklären die ersten PCs mehr Varianz in Ihren Daten als alle anderen Dimensionen. Das meine ich mit best . Ob das für Sie nützlich ist oder nicht, ist eine andere Sache. $n > k$ $k$ $k$ $k$

— ilanman
quelle

6

Stellen Sie außerdem sicher, dass Sie die Variablen skalieren. Andernfalls erklären Verkäufe (viel höhere Zahlen) den größten Teil der Varianz. Wahrscheinlich, warum die Einheiten in Ihren PCs so unterschiedlich sind.

— Filipe

Gute Antwort, aber Ihre Aussage "... die besten kk-Dimensionen, als die Ihre Daten möglicherweise dargestellt werden könnten ..." ist möglicherweise zu verallgemeinert. Die Richtung der maximalen Varianz ist nicht unbedingt nützlich, um zwei Klassen zu trennen. Irgendwie funktioniert es oft gut, aber nicht, weil PCA alles tut, um die besten Entscheidungen für einen bestimmten Zweck zu treffen.

— Wayne

"Tatsächlich ist PCA nur eine Darstellung Ihrer Daten auf orthogonaler Basis." Ich bin ständig überrascht von der Tatsache, dass viele Menschen diesen Punkt nicht verstehen ...

— 3x89g2

5

Zu der guten Antwort von Ilan Mann möchte ich hinzufügen, dass es eine recht einfache Interpretation Ihrer Hauptkomponenten gibt, obwohl sie in diesem einfachen 2D-Fall nicht viel zu dem beiträgt, was wir hätten interpretieren können, wenn wir nur das Streudiagramm betrachtet hätten.

Der erste PC ist eine gewichtete Summe (dh eine lineare Kombination, bei der beide Koeffizienten positiv sind) aus Temperatur und Eiscremeverbrauch. Auf der rechten Seite haben Sie heiße Tage, an denen viel Eis verkauft wird, und auf der linken Seite haben Sie kältere Tage, an denen weniger Eis verkauft wird. Dieser PC erklärt den größten Teil Ihrer Varianz und die Gruppen, die Sie erhalten haben, stimmen mit diesen beiden Seiten überein.

Der zweite PC misst, wie sich Temperatur und Eisverbrauch von der engen linearen Beziehung entfernen, die vom ersten PC unterstrichen wird. Im oberen Teil der Grafik haben wir Tage mit mehr verkauftem Eis im Vergleich zu anderen Tagen mit der gleichen Temperatur und im unteren Teil Tage mit weniger verkauftem Eis als erwartet je nach Temperatur. Dieser PC erklärt nur einen kleinen Teil der Varianz.

Das heißt, wir können eine Geschichte aus Hauptkomponenten erzählen, obwohl es mit nur zwei Variablen dieselbe Geschichte ist, die wir ohne PCA hätten bemerken können. Mit mehr Variablen wird PCA nützlicher, weil es Geschichten erzählt, die sonst schwerer zu bemerken wären.

— Pere
quelle