Wie Sie wahrscheinlich beim Aufschreiben der Optimierungsprobleme bemerkt haben, besteht der einzige Unterschied bei der Minimierung darin, welche Hilbert-Norm für die Bestrafung verwendet werden soll. Das heißt, um zu quantifizieren, welche 'großen' Werte von für Bestrafungszwecke sind. In der RKHS-Einstellung verwenden wir das innere RKHS-Produkt , während die Gratregression in Bezug auf die euklidische Norm bestraft wird.α t K αααtKα
Eine interessante theoretische Konsequenz ist, wie jede Methode das Spektrum des reproduzierenden Kerns . Nach der RKHS-Theorie haben wir, dass symmetrisch positiv definit ist. Nach dem Spektralsatz können wir schreiben, wobei die diagonale Matrix der Eigenwerte und die orthonormale Matrix der Eigenvektoren ist. Folglich ist in der RKHS-Einstellung
Beachten Sie in der Ridge-Regressionseinstellung, dass nach Symmetrie ist.
K K = U t D U D U ( K + λ n I ) - 1 Y.KKK=UtDUDU
(K+λnI)−1Y=[Ut(D+λnI)U]−1Y=Ut[D+λnI]−1UY.
KtK=K2(K2+λnI)−1KY=[Ut(D2+λnI)U]−1KY=Ut[D2+λnI]−1UKY=Ut[D2+λnI]−1DUY=Ut[D+λnD−1]−1UY.
Das Spektrum von sei . Bei der RKHS-Regression werden die Eigenwerte durch stabilisiert
. In der Ridge-Regression haben wir
. Infolgedessen modifiziert RKHS die Eigenwerte gleichmäßig, während Ridge einen größeren Wert hinzufügt, wenn das entsprechende kleiner ist.
Kν1,…,νnνi→νi+λnνi→νi+λn/νiνi
Abhängig von der Wahl des Kernels können die beiden Schätzungen für nahe oder weit voneinander entfernt sein. Der Abstand im Sinne der Operatornorm beträgt
Dies ist jedoch immer noch für ein bestimmtesαY.
∥αRKHS−αRidge∥ℓ2=∥ARKHSY−ARidgeY∥ℓ2≤∥[D+λnI]−1−[D+λnD−1]−1∥∞∥Y∥ℓ2≤maxi=1,…,n{|(νi+λn)−1−(νi+λn/νi)−1|}∥Y∥ℓ2≤maxi=1,…,n{λn|1−νi|(νi+λn)(ν2i+λn)}∥Y∥ℓ2
YIhre beiden Schätzer können also nicht beliebig weit voneinander entfernt sein. Wenn sich Ihr Kernel also in der Nähe der Identität befindet, gibt es wahrscheinlich kaum Unterschiede in den Ansätzen. Wenn sich Ihre Kernel stark unterscheiden, können die beiden Ansätze immer noch zu ähnlichen Ergebnissen führen.
In der Praxis ist es schwer definitiv zu sagen, ob einer für eine bestimmte Situation besser ist als der andere. Da wir bei der Darstellung der Daten in Bezug auf die Kernelfunktion den quadratischen Fehler minimieren, wählen wir effektiv eine beste Regressionskurve aus dem entsprechenden Hilbert-Funktionsraum aus. Daher scheint die Bestrafung des inneren Produkts von RKHS der natürliche Weg zu sein.