Theorie hinter der partiellen Regression der kleinsten Quadrate

Kann jemand eine gute Darstellung der Theorie der partiellen Regression der kleinsten Quadrate (online verfügbar) für jemanden empfehlen, der SVD und PCA versteht? Ich habe online in vielen Quellen nachgesehen und nichts gefunden, das die richtige Kombination aus Strenge und Zugänglichkeit bietet.

Ich habe mich mit den Elementen des statistischen Lernens befasst , die in einem Kommentar zu einer Frage unter Cross Validated vorgeschlagen wurden: Was ist eine partielle Regression der kleinsten Quadrate (PLS) und wie unterscheidet sie sich von OLS? , aber ich denke nicht, dass dieser Verweis dem Thema gerecht wird (es ist zu kurz, um dies zu tun, und bietet nicht viel Theorie zu diesem Thema). , was ich gelesen habe, nutzt PLS Linearkombinationen der Prädiktorvariablen , die die Kovarianz unter den Bedingungen und wenn , wo die $z_i=X \varphi_i$ $y^Tz_i$ $\|\varphi_i\|=1$ $z_i^Tz_j=0$ $i \neq j$ $\varphi_i$ werden iterativ in der Reihenfolge ausgewählt, in der sie die Kovarianz maximieren. Aber auch nach allem, was ich gelesen habe, bin ich mir immer noch unsicher, ob das stimmt und wenn ja, wie die Methode ausgeführt wird.

— Clarpaul
quelle

Abschnitt 3.5.2 in Die Elemente des statistischen Lernens ist nützlich, weil er die PLS-Regression in den richtigen Kontext (anderer Regularisierungsmethoden) stellt, aber in der Tat sehr kurz ist und einige wichtige Aussagen als Übung hinterlässt. Außerdem wird nur der Fall einer univariaten abhängigen Variablen berücksichtigt $\mathbf y$ .

Die Literatur zu PLS ist umfangreich, kann jedoch verwirrend sein, da es viele verschiedene "Varianten" von PLS gibt: univariate Versionen mit einer einzelnen DV $\mathbf y$ (PLS1) und multivariate Versionen mit mehreren DVs $\mathbf Y$ (PLS2), symmetrische Versionen Behandlung von $\mathbf X$ und $\mathbf Y$ gleich und von asymmetrischen Versionen ("PLS-Regression") Behandlung von $\mathbf X$ als unabhängige und $\mathbf Y$ als abhängige Variablen, Versionen, die eine globale Lösung über SVD ermöglichen, und Versionen, die iterative Deflation erfordern, um jede weitere zu erzeugen Paar PLS-Richtungen usw. usw.

All dies wurde auf dem Gebiet der Chemometrie entwickelt und bleibt ein wenig von der statistischen oder maschinellen Lernliteratur des "Mainstream" abgekoppelt.

Das Übersichtspapier, das ich am nützlichsten finde (und das viele weitere Referenzen enthält), ist:

Rosipal & Krämer, 2006, Überblick und jüngste Fortschritte bei den kleinsten Teilquadraten

Für eine theoretischere Diskussion kann ich weiter empfehlen:

Frank & Friedman, 1993, Eine statistische Ansicht einiger Chemometrics Regressionstools

Eine kurze Einführung in die PLS-Regression mit univariate (aka PLS1, aka SIMPLS) $y$

Das Ziel der Regression ist abzuschätzen in einem linearen Modell . Die OLS-Lösung weist viele Optimalitätseigenschaften auf, kann jedoch unter einer Überanpassung leiden. In der Tat sucht OLS nach , das die höchstmögliche Korrelation von mit ergibt . Wenn es viele Prädiktoren gibt, ist es immer möglich, eine Linearkombination zu finden, die zufällig eine hohe Korrelation mit . Dies ist eine falsche Korrelation, und eine solche zeigt normalerweise in eine Richtung, die eine sehr geringe Varianz in $\beta$ $y=X\beta + \epsilon$ $\beta=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf y$ $\beta$ $\mathbf X \beta$ $\mathbf y$ $\mathbf y$ $\beta$ $\mathbf X$ . Richtungen, die eine sehr geringe Varianz erklären, sind oft sehr "laute" Richtungen. Wenn dies der Fall ist, ist die Leistung der OLS-Lösung beim Testen von Daten trotz der hervorragenden Trainingsdaten wesentlich schlechter.

Um eine Überanpassung zu verhindern, verwendet man Regularisierungsmethoden, die im Wesentlichen zwingen , in Richtungen hoher Varianz in (dies wird auch als "Schrumpfen" von ; siehe Warum funktioniert das Schrumpfen? ). Eine solche Methode ist die Principal Component Regression (PCR), bei der einfach alle Richtungen mit geringer Varianz verworfen werden. Eine andere (bessere) Methode ist die Gratregression, die Richtungen mit geringer Varianz sanft benachteiligt. Eine weitere Methode ist PLS1. $\beta$ $\mathbf X$ $\beta$

PLS1 ersetzt das OLS-Ziel des Findens von , das die Korrelation maximiert durch ein alternatives Ziel des Findens von mit der Länge Kovarianz maximiert wird was wiederum Richtungen mit geringer Varianz wirksam benachteiligt. $\beta$ $\operatorname{corr}(\mathbf X \beta, \mathbf y)$ $\beta$ $\|\beta\|=1$

cov (X β, y) \sim corr (X β, y) \cdot \sqrt{var (X β)},

$\operatorname{cov}(\mathbf X \beta, \mathbf y)\sim\operatorname{corr}(\mathbf X \beta, \mathbf y)\cdot\sqrt{\operatorname{var}(\mathbf X \beta)},$

Das Finden von (nennen wir es ) ergibt die erste PLS-Komponente . Man kann weiter nach der zweiten (und dann dritten usw.) PLS-Komponente suchen, die die höchstmögliche Kovarianz mit unter der Bedingung, mit allen vorherigen Komponenten nicht korreliert zu sein. Dies muss iterativ gelöst werden, da es keine geschlossene Lösung für alle Komponenten gibt (die Richtung der ersten Komponente wird einfach durch $\beta$ $\beta_1$ $\mathbf z_1 = \mathbf X \beta_1$ $\mathbf y$ $\beta_1$ $\mathbf X^\top \mathbf y$ auf Einheitslänge normiert). Wenn die gewünschte Anzahl von Komponenten extrahiert wurde, verwirft die PLS-Regression die ursprünglichen Prädiktoren und verwendet PLS-Komponenten als neue Prädiktoren. Dies ergibt eine lineare Kombination von ihnen , die mit allen kombiniert werden kann , um das endgültige . $\beta_z$ $\beta_i$ $\beta_\mathrm{PLS}$

Beachten Sie, dass:

Wenn alle PLS1-Komponenten verwendet werden, entspricht PLS OLS. Die Anzahl der Komponenten dient also als Regularisierungsparameter: Je niedriger die Anzahl, desto stärker die Regularisierung.
Wenn die Prädiktoren nicht korreliert sind und alle die gleiche Varianz haben (dh wurde weiß gemacht ), gibt es nur eine PLS1-Komponente und diese entspricht OLS. $\mathbf X$ $\mathbf X$
Gewichtungsvektoren und für werden nicht orthogonal sein, sondern ergeben unkorrelierte Komponenten und . $\beta_i$ $\beta_j$ $i\ne j$ $\mathbf z_i=\mathbf X \beta_i$ $\mathbf z_j=\mathbf X \beta_j$

Abgesehen davon sind mir keine praktischen Vorteile der PLS1-Regression gegenüber der Ridge-Regression bekannt (während die letztere viele Vorteile hat: Sie ist kontinuierlich und nicht diskret, hat eine analytische Lösung, ist viel standardisierter, ermöglicht Kernel-Erweiterungen und analytische Formeln für ausgelassene Kreuzvalidierungsfehler usw. usw.).

Zitat von Frank & Friedman:

RR, PCR und PLS werden in Abschnitt 3 in ähnlicher Weise beschrieben. Ihr Hauptziel ist es, den Lösungskoeffizientenvektor von der OLS-Lösung weg in Richtung des prädiktorvariablen Raums größerer Probenausbreitung zu verkleinern. Es wird beobachtet, dass PCR und PLS stärker aus den Richtungen geringer Ausbreitung schrumpfen als RR, was die optimale Schrumpfung (unter linearen Schätzern) für eine Gleichrichtung vorsieht. Daher gehen PCR und PLS davon aus, dass die Wahrheit mit hoher Wahrscheinlichkeit besonders bevorzugt mit den Ausbreitungsrichtungen der Verteilung der Prädiktorvariablen (Probe) übereinstimmt. Ein etwas überraschendes Ergebnis ist, dass PLS (zusätzlich) eine erhöhte Wahrscheinlichkeitsmasse auf den wahren Koeffizientenvektor legt, der mit der ten Hauptkomponentenrichtung ausgerichtet ist, wobei $K$ $K$ ist die Anzahl der verwendeten PLS-Komponenten, die tatsächlich die OLS-Lösung in diese Richtung erweitern.

Sie führen auch eine umfangreiche Simulationsstudie durch und schließen daraus (Schwerpunkt Mine):

Für die von dieser Simulationsstudie abgedeckten Situationen kann man den Schluss ziehen, dass alle voreingenommenen Methoden (RR, PCR, PLS und VSS) eine wesentliche Verbesserung gegenüber OLS bieten. [...] In allen Situationen dominierte RR alle anderen untersuchten Methoden. PLS schnitt in der Regel fast genauso gut ab wie RR und übertraf in der Regel die PCR, jedoch nicht sehr.

Update: In den Kommentaren schlägt @cbeleites (der in der Chemometrie arbeitet) zwei mögliche Vorteile von PLS gegenüber RR vor:

Ein Analyst kann a priori davon ausgehen , wie viele latente Komponenten in den Daten vorhanden sein sollten. Dies ermöglicht es effektiv, eine Regularisierungsstärke festzulegen, ohne eine Kreuzvalidierung durchzuführen (und möglicherweise sind nicht genügend Daten vorhanden, um einen zuverlässigen Lebenslauf zu erstellen). Eine solche a priori Wahl von könnte bei RR problematischer sein. $\lambda$
RR ergibt eine einzelne Linearkombination als optimale Lösung. Im Gegensatz dazu liefert PLS mit zB fünf Komponenten fünf Linearkombinationen , die dann kombiniert werden, um vorherzusagen . Ursprüngliche Variablen, die stark miteinander korreliert sind, werden wahrscheinlich zu einer einzigen PLS-Komponente zusammengefasst (da ihre Kombination den erklärten Varianzterm erhöht). Es könnte also möglich sein , die einzelnen PLS-Komponenten als einige echte latente Faktoren zu interpretieren, die antreiben . Die Behauptung ist, dass es einfacher ist, usw. zu interpretieren , als das gemeinsame $\beta_\mathrm{RR}$ $\beta_i$ $y$ $y$ $\beta_1, \beta_2,$ $\beta_\mathrm{PLS}$ . Vergleichen Sie dies mit der PCR, wo man auch als Vorteil sehen kann, dass einzelne Hauptkomponenten möglicherweise interpretiert und mit einer qualitativen Bedeutung versehen werden können.

— Amöbe sagt Reinstate Monica
quelle

Das Papier sieht nützlich aus. Ich glaube nicht, dass es darum geht, wie viel Überanpassung durch PLS verursacht werden kann.

— Frank Harrell

Das stimmt, @Frank, aber ehrlich gesagt sehe ich, was die prädiktive Leistung angeht, keinen großen Sinn darin, etwas anderes als die Gratregression zu tun (oder vielleicht ein elastisches Netz, wenn auch Sparsamkeit gewünscht wird). Mein eigenes Interesse an PLS ist der Aspekt der Dimensionsreduzierung, wenn sowohl als auch multivariat sind. Daher interessiert mich nicht sehr, wie sich PLS als Regularisierungstechnik verhält (im Vergleich zu anderen Regularisierungsmethoden). Wenn ich ein lineares Modell habe, das ich regulieren muss, bevorzuge ich die Verwendung von First. Ich frage mich, was Sie hier erlebt haben.

X

$X$

Y

$Y$

— Amöbe sagt Reinstate Monica

Meine Erfahrung ist, dass der Kamm (quadratische bestrafte Maximum-Likelihood-Schätzung) überlegene Vorhersagen liefert. Ich denke, dass einige Analysten glauben, dass PLS eine Technik zur Reduzierung der Dimensionalität im Sinne der Vermeidung von Überanpassung ist, aber ich denke, dass dies nicht der Fall ist.

— Frank Harrell

b) Wenn Sie beispielsweise eine spektroskopische Interpretation der Funktionsweise des Modells vornehmen, fällt es mir leichter, die PLS-Beladungen zu betrachten, bei denen es sich um Substanzen handelt, die gemessen werden. Möglicherweise finden Sie dort eine oder zwei Substanzen / Substanzklassen, wobei die Koeffizienten, die alle latenten Variablen enthalten, schwerer zu interpretieren sind, da die spektralen Beiträge mehrerer Substanzen kombiniert werden. Dies ist umso wichtiger, als nicht alle üblichen Regeln für die spektrale Interpretation gelten: Ein PLS-Modell wählt möglicherweise einige Banden einer Substanz aus, während andere ignoriert werden. "Normale" Spektreninterpretation

— verbraucht

... kommen aus dieser oder jener Substanz. Wenn es diese Substanz ist, muss es diese andere Band geben. Da diese letztere Möglichkeit der Verifizierung des Stoffes mit den latenten Variablen / Ladungen / Koeffizienten nicht möglich ist, ist die Interpretation von Dingen, die sich gemeinsam ändern und daher in derselben latenten Variablen enden, viel einfacher als die Interpretation der Koeffizienten, die bereits alle möglichen "Hinweise" zusammenfassen ", die dem Modell bekannt sind.

— cbeleites unterstützt Monica

Ja. Herman Wolds Buch Theoretical Empiricism: Eine allgemeine Begründung für die Erstellung wissenschaftlicher Modelle ist die mir bekannteste Einzelausstellung von PLS, insbesondere angesichts der Tatsache, dass Wold ein Urheber des Ansatzes ist. Ganz zu schweigen davon, dass es einfach ein interessantes Buch ist, über das man lesen und Bescheid wissen kann. Aufgrund einer Suche bei Amazon ist die Anzahl der Verweise auf deutschsprachige PLS-Bücher erstaunlich, aber möglicherweise ist auch der Untertitel von Wolds Buch ein Grund dafür.

— Mike Hunter
quelle

Diese amazon.com/Towards-Unified-Scientific-Models-Methods/dp/… ist verwandt, deckt jedoch weit mehr ab als PLS

— kjetil b halvorsen

Das stimmt, aber der Hauptfokus des Buches liegt auf Wolds Entwicklung der Theorie und Anwendung von PLS.

— Mike Hunter

Theorie hinter der partiellen Regression der kleinsten Quadrate

Eine kurze Einführung in die PLS-Regression mit univariate (aka PLS1, aka SIMPLS)yyy

Eine kurze Einführung in die PLS-Regression mit univariate (aka PLS1, aka SIMPLS) $y$