In Statistical Methods in the Atmospheric Sciences stellt Daniel Wilks fest, dass multiple lineare Regression zu Problemen führen kann, wenn zwischen den Prädiktoren sehr starke Wechselbeziehungen bestehen (3. Auflage, Seite 559-560):
Eine Pathologie, die bei der multiplen linearen Regression auftreten kann, besteht darin, dass ein Satz von Prädiktorvariablen mit starken gegenseitigen Korrelationen zur Berechnung einer instabilen Regressionsbeziehung führen kann.
(...)
Anschließend führt er die Hauptkomponentenregression ein:
Ein Ansatz zur Behebung dieses Problems besteht darin, die Prädiktoren zunächst in ihre Hauptkomponenten umzuwandeln, deren Korrelationen Null sind.
So weit, ist es gut. Aber als nächstes macht er einige Aussagen, die er nicht erklärt (oder zumindest nicht ausführlich genug, damit ich sie verstehe):
Wenn alle Hauptkomponenten in einer Hauptkomponenten-Regression beibehalten werden, wird nichts über die konventionelle Anpassung der kleinsten Quadrate an den vollständigen Prädiktorsatz gewonnen.
(..) und:
Es ist möglich, die Hauptkomponenten-Regression in Bezug auf die ursprünglichen Prädiktoren erneut auszudrücken, aber das Ergebnis wird im Allgemeinen alle ursprünglichen Prädiktorvariablen mit einbeziehen, selbst wenn nur ein oder wenige Hauptkomponenten-Prädiktoren verwendet wurden. Diese wiederhergestellte Regression ist voreingenommen, obwohl die Varianz häufig viel geringer ist, was insgesamt zu einer geringeren MSE führt.
Ich verstehe diese beiden Punkte nicht.
Wenn alle Hauptkomponenten beibehalten werden, verwenden wir natürlich dieselben Informationen wie bei der Verwendung der Prädiktoren an ihrem ursprünglichen Platz. Das Problem der gegenseitigen Korrelation wird jedoch durch Arbeiten im Hauptkomponentenraum beseitigt. Wir haben vielleicht immer noch Überanpassung, aber ist das das einzige Problem? Warum wird nichts gewonnen?
Zweitens, selbst wenn wir die Hauptkomponenten abschneiden (möglicherweise zur Geräuschreduzierung und / oder zur Vermeidung von Überanpassung), warum und wie führt dies zu einer voreingenommenen rekonstituierten Regression? Inwiefern voreingenommen?
Buchquelle: Daniel S. Wilks, Statistical Methods in the Atmospheric Sciences, 3. Auflage, 2011. Internationale Geophysik-Reihe Band 100, Academic Press.