Abschnitt 3.5.2 in Die Elemente des statistischen Lernens ist nützlich, weil er die PLS-Regression in den richtigen Kontext (anderer Regularisierungsmethoden) stellt, aber in der Tat sehr kurz ist und einige wichtige Aussagen als Übung hinterlässt. Außerdem wird nur der Fall einer univariaten abhängigen Variablen \ mathbf y berücksichtigt y.
Die Literatur zu PLS ist umfangreich, kann jedoch verwirrend sein, da es viele verschiedene "Varianten" von PLS gibt: univariate Versionen mit einer einzelnen DV y (PLS1) und multivariate Versionen mit mehreren DVs Y. (PLS2), symmetrische Versionen Behandlung von X und Y. gleich und von asymmetrischen Versionen ("PLS-Regression") Behandlung von X als unabhängige und Y. als abhängige Variablen, Versionen, die eine globale Lösung über SVD ermöglichen, und Versionen, die iterative Deflation erfordern, um jede weitere zu erzeugen Paar PLS-Richtungen usw. usw.
All dies wurde auf dem Gebiet der Chemometrie entwickelt und bleibt ein wenig von der statistischen oder maschinellen Lernliteratur des "Mainstream" abgekoppelt.
Das Übersichtspapier, das ich am nützlichsten finde (und das viele weitere Referenzen enthält), ist:
Für eine theoretischere Diskussion kann ich weiter empfehlen:
Eine kurze Einführung in die PLS-Regression mit univariate (aka PLS1, aka SIMPLS)y
Das Ziel der Regression ist abzuschätzen in einem linearen Modell . Die OLS-Lösung weist viele Optimalitätseigenschaften auf, kann jedoch unter einer Überanpassung leiden. In der Tat sucht OLS nach , das die höchstmögliche Korrelation von mit ergibt . Wenn es viele Prädiktoren gibt, ist es immer möglich, eine Linearkombination zu finden, die zufällig eine hohe Korrelation mit . Dies ist eine falsche Korrelation, und eine solche zeigt normalerweise in eine Richtung, die eine sehr geringe Varianz iny = X β + ϵ β = ( X ⊤ X ) - 1 X ⊤ y β X β y y β Xβy= Xβ+ ϵβ= ( X⊤X )- 1X⊤yβX βyyβX. Richtungen, die eine sehr geringe Varianz erklären, sind oft sehr "laute" Richtungen. Wenn dies der Fall ist, ist die Leistung der OLS-Lösung beim Testen von Daten trotz der hervorragenden Trainingsdaten wesentlich schlechter.
Um eine Überanpassung zu verhindern, verwendet man Regularisierungsmethoden, die im Wesentlichen zwingen , in Richtungen hoher Varianz in (dies wird auch als "Schrumpfen" von ; siehe Warum funktioniert das Schrumpfen? ). Eine solche Methode ist die Principal Component Regression (PCR), bei der einfach alle Richtungen mit geringer Varianz verworfen werden. Eine andere (bessere) Methode ist die Gratregression, die Richtungen mit geringer Varianz sanft benachteiligt. Eine weitere Methode ist PLS1.β βXβ
PLS1 ersetzt das OLS-Ziel des Findens von , das die Korrelation maximiert durch ein alternatives Ziel des Findens von mit der Länge Kovarianz maximiert wird was wiederum Richtungen mit geringer Varianz wirksam benachteiligt.corr ( X β , y ) β ‖ β ‖ = 1 COV ( X β , y ) ~ corr ( X β , y ) ⋅ √βkorr( X β, Y )β∥ β∥ = 1
cov( X β, y ) ∼ korr( X β, y ) ⋅ var( X β)-------√,
Das Finden von (nennen wir es ) ergibt die erste PLS-Komponente . Man kann weiter nach der zweiten (und dann dritten usw.) PLS-Komponente suchen, die die höchstmögliche Kovarianz mit unter der Bedingung, mit allen vorherigen Komponenten nicht korreliert zu sein. Dies muss iterativ gelöst werden, da es keine geschlossene Lösung für alle Komponenten gibt (die Richtung der ersten Komponente wird einfach durchβ 1 z 1 = X β 1 y β 1 X ⊤ y β z β i β P L Sββ1z1= X β1yβ1X⊤yauf Einheitslänge normiert). Wenn die gewünschte Anzahl von Komponenten extrahiert wurde, verwirft die PLS-Regression die ursprünglichen Prädiktoren und verwendet PLS-Komponenten als neue Prädiktoren. Dies ergibt eine lineare Kombination von ihnen , die mit allen kombiniert werden kann , um das endgültige .βzβichβP LS
Beachten Sie, dass:
- Wenn alle PLS1-Komponenten verwendet werden, entspricht PLS OLS. Die Anzahl der Komponenten dient also als Regularisierungsparameter: Je niedriger die Anzahl, desto stärker die Regularisierung.
- Wenn die Prädiktoren nicht korreliert sind und alle die gleiche Varianz haben (dh wurde weiß gemacht ), gibt es nur eine PLS1-Komponente und diese entspricht OLS.XXX
- Gewichtungsvektoren und für werden nicht orthogonal sein, sondern ergeben unkorrelierte Komponenten und .β j i ≠ j z i = X β i z j = X β jβichβjich ≠ jzich=X βichzj= Xβj
Abgesehen davon sind mir keine praktischen Vorteile der PLS1-Regression gegenüber der Ridge-Regression bekannt (während die letztere viele Vorteile hat: Sie ist kontinuierlich und nicht diskret, hat eine analytische Lösung, ist viel standardisierter, ermöglicht Kernel-Erweiterungen und analytische Formeln für ausgelassene Kreuzvalidierungsfehler usw. usw.).
Zitat von Frank & Friedman:
RR, PCR und PLS werden in Abschnitt 3 in ähnlicher Weise beschrieben. Ihr Hauptziel ist es, den Lösungskoeffizientenvektor von der OLS-Lösung weg in Richtung des prädiktorvariablen Raums größerer Probenausbreitung zu verkleinern. Es wird beobachtet, dass PCR und PLS stärker aus den Richtungen geringer Ausbreitung schrumpfen als RR, was die optimale Schrumpfung (unter linearen Schätzern) für eine Gleichrichtung vorsieht. Daher gehen PCR und PLS davon aus, dass die Wahrheit mit hoher Wahrscheinlichkeit besonders bevorzugt mit den Ausbreitungsrichtungen der Verteilung der Prädiktorvariablen (Probe) übereinstimmt. Ein etwas überraschendes Ergebnis ist, dass PLS (zusätzlich) eine erhöhte Wahrscheinlichkeitsmasse auf den wahren Koeffizientenvektor legt, der mit der ten Hauptkomponentenrichtung ausgerichtet ist, wobeiKKK ist die Anzahl der verwendeten PLS-Komponenten, die tatsächlich die OLS-Lösung in diese Richtung erweitern.
Sie führen auch eine umfangreiche Simulationsstudie durch und schließen daraus (Schwerpunkt Mine):
Für die von dieser Simulationsstudie abgedeckten Situationen kann man den Schluss ziehen, dass alle voreingenommenen Methoden (RR, PCR, PLS und VSS) eine wesentliche Verbesserung gegenüber OLS bieten. [...] In allen Situationen dominierte RR alle anderen untersuchten Methoden. PLS schnitt in der Regel fast genauso gut ab wie RR und übertraf in der Regel die PCR, jedoch nicht sehr.
Update: In den Kommentaren schlägt @cbeleites (der in der Chemometrie arbeitet) zwei mögliche Vorteile von PLS gegenüber RR vor:
Ein Analyst kann a priori davon ausgehen , wie viele latente Komponenten in den Daten vorhanden sein sollten. Dies ermöglicht es effektiv, eine Regularisierungsstärke festzulegen, ohne eine Kreuzvalidierung durchzuführen (und möglicherweise sind nicht genügend Daten vorhanden, um einen zuverlässigen Lebenslauf zu erstellen). Eine solche a priori Wahl von könnte bei RR problematischer sein.λ
RR ergibt eine einzelne Linearkombination als optimale Lösung. Im Gegensatz dazu liefert PLS mit zB fünf Komponenten fünf Linearkombinationen , die dann kombiniert werden, um vorherzusagen . Ursprüngliche Variablen, die stark miteinander korreliert sind, werden wahrscheinlich zu einer einzigen PLS-Komponente zusammengefasst (da ihre Kombination den erklärten Varianzterm erhöht). Es könnte also möglich sein , die einzelnen PLS-Komponenten als einige echte latente Faktoren zu interpretieren, die antreiben . Die Behauptung ist, dass es einfacher ist, usw. zu interpretieren , als das gemeinsame β i y y β 1 , β 2 , β P L SβR Rβichyyβ1, β2,βP L S. Vergleichen Sie dies mit der PCR, wo man auch als Vorteil sehen kann, dass einzelne Hauptkomponenten möglicherweise interpretiert und mit einer qualitativen Bedeutung versehen werden können.