Wie werden beim Zentrieren der Daten die Unterbrechungen bei Regression und PCA beseitigt?


38

Ich lese immer wieder über Fälle, in denen wir die Daten zentrieren (z. B. mit Regularisierung oder PCA), um den Intercept zu entfernen (wie in dieser Frage erwähnt ). Ich weiß, dass es einfach ist, aber es fällt mir schwer, das intuitiv zu verstehen. Könnte jemand die Intuition oder eine Referenz liefern, die ich lesen kann?


2
Dies ist ein sehr spezieller Fall der "Steuerung für andere Variablen", wie (auf verschiedene Arten) unter stats.stackexchange.com/questions/17336/… erläutert . Die "Variable", auf die gesteuert wird, ist der konstante (Schnitt-) Term.
Whuber

Antworten:


63

Können diese Bilder helfen?

Die ersten beiden Bilder handeln von Regression. Durch das Zentrieren der Daten wird die Steigung der Regressionslinie nicht geändert, der Achsenabschnitt wird jedoch auf 0 gesetzt.

Bildbeschreibung hier eingeben

1

Bildbeschreibung hier eingeben


1


1
y¯-X¯β

15
PCA is maximizing varianceDies ist im Allgemeinen nicht wahr. PCA maximiert (nach dem 1. PC) die Summe der quadratischen Abweichungen vom Ursprung. Nur wenn die Daten vorab zentriert wurden (das Zentrieren selbst ist kein Teil der PCA), wird die Varianz maximiert.
TTNPHNS

3
PS Beachten Sie, dass die Berechnung von Kovarianzen oder Korrelationen die Zentrierung impliziert
ttnphns

1
> PS Beachten Sie, dass die Berechnung von Kovarianzen oder Korrelationen eine Zentrierung impliziert - ttnphns 27. August 12 um 11:47 Uhr. Obwohl ich Ihren anderen Kommentaren zustimme, implizieren sowohl Kovarianz als auch Korrelation KEINE Zentrierung. Weder Cor noch Covar ändern den Wert, wenn eine additive Konstante auf die Daten angewendet wird.
TPM

1
Das ist rückwärts. Additive Konstanten wirken sich zwar nicht auf Korrelationen aus, aber das liegt daran, dass sie in den Berechnungen herausgerechnet werden, wie @ttphns hervorhob. Davon abgesehen ist dies keine neue Antwort, sondern ein Kommentar. Wir verstehen, dass Sie noch nicht genug Reputation haben, um Kommentare abzugeben. Ich vertraue darauf, dass dies von einem Benutzer mit genügend Reputation nach dem Markieren verschoben wird.
Nick Cox
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.