Die Ridge-Regression kann ausgedrückt werden als wobei die vorhergesagte Bezeichnung ist , die Identifizierungsmatrix, das Objekt, für das wir eine Bezeichnung finden möchten, und die Matrix von Objekten so dass:
Wir können dies wie folgt kernelisieren:
Dabei ist die Matrix der Kernelfunktionen
und der Spaltenvektor der Kernfunktionen
Fragen:
(a) Wenn es mehr Objekte als Dimensionen gibt, ist es sinnvoll, keine Kernel zu verwenden? Eg lassen sein Matrix dann wird eine sein und wir werden ein Ende Invertieren - Matrix anstelle der Matrix müssten wir invertieren, wenn wir Kernel verwenden würden. Bedeutet dies, dass wir keine Kernel verwenden sollten , wenn ?
(b) Sollte der einfachste Kernel verwendet werden? Es scheint, dass Kernel in der Ridge-Regression verwendet werden, um die Einflüsse der Dimensionalität zu negieren und bestimmte Eigenschaften des Merkmalsraums nicht zu nutzen (im Gegensatz zu Support-Vektor-Maschinen). Obwohl Kernel die Abstände zwischen Objekten ändern können, gibt es beliebte Kernel, die häufig bei der Ridge-Regression verwendet werden?
(c) Wie hoch ist die Zeit-Komplexität der Ridge-Regression und / oder der Kernel-Ridge-Regression?