Grundlegendes zu Gaußschen Basisfunktionsparametern für die lineare Regression

12

Ich möchte die Gaußsche Basisfunktion auf eine lineare Regressionsimplementierung anwenden. Leider fällt es mir schwer, ein paar Parameter in der Basisfunktion zu verstehen. Insbesondere und . $\mu$ $\sigma$

Mein Datensatz ist eine 10.000 x 31-Matrix. 10.000 Samples und 31 Features. Ich habe gelesen, dass "Jede Basisfunktion den Eingabevektor x in einen Skalarwert umwandelt". Ich gehe also davon aus, dass x 1 Stichprobe ist, also ein 1 x 31-Vektor. Von hier aus bin ich verwirrt. Was genau ist der Parameter? Ich habe gelesen, dass dies die Orte der Basisfunktionen regelt. Ist das also nicht die Bedeutung von etwas? Ich werde auch durch den Index j ( und ) abgeworfen, das bringt mich dazu, an die dritte Zeile zu denken. Aber das scheint keinen Sinn zu ergeben. Ist das ein Vektor? Nun zum $\mu_j$ $\mu$ $\phi$ $\mu_j$ $\sigma$ das "regelt die räumliche Skala". Was genau ist das Ich habe einige Implementierungen gesehen, die Werte wie .1, .5, 2.5 für diesen Parameter ausprobieren. Wie werden diese Werte berechnet? Ich habe recherchiert und nach Beispielen gesucht, um daraus zu lernen, aber bis jetzt konnte ich keine finden. Jede Hilfe oder Anweisung wird sehr geschätzt! Vielen Dank.

regression machine-learning basis-function

— user2743
quelle

11

Da Sie verwirrt sind, lassen Sie mich zunächst das Problem benennen und Ihre Fragen nacheinander beantworten. Sie haben eine Stichprobengröße von 10.000 und jede Stichprobe wird durch einen Merkmalsvektor . Wenn Sie Regression Gaußsche radiale Basisfunktionen ausführen wollen , dann sucht eine Funktion der Form , wo die $x\in\mathbb{R}^{31}$

f (x) = \sum_{j} w_{j} * g_{j} (x; μ_{j}, σ_{j}), j = 1.. m

$f(x) = \sum_{j}{w_j * g_j(x; \mu_j,\sigma_j}), j=1..m$

g_{i}

$g_i$ sind Ihre Basisfunktionen. Genauer gesagt, müssen die finden

Gewichte

, so daß für gegebene Parameter

und

der Fehler zwischen minimieren

und der entsprechenden Prädiktion

=

- in der Regel wird man die Minimierung der kleinsten Quadrate Fehler.

m

$m$

w_{j}

$w_j$

μ_{j}

$\mu_j$

σ_{j}

$\sigma_j$

y

$y$

\hat{y}

$\hat{y}$

f (\hat{x})

$f(\hat{x})$

Was genau ist der Parameter Mu-Index j?

Sie müssen Basisfunktionen . (Sie müssen noch die Zahl bestimmen ) Jede Basisfunktion hat ein und ein (ebenfalls unbekannt). Der Index reicht von bis . $m$ $g_j$ $m$ $\mu_j$ $\sigma_j$ $j$ $1$ $m$

Ist das ein Vektor? $\mu_j$

Ja, das ist ein Punkt in . Mit anderen Worten, es ist ein Punkt in Ihrem Merkmalsraum, und für jede der Basisfunktionen muss ein bestimmt werden. $\mathbb{R}^{31}$ $\mu$ $m$

Ich habe gelesen, dass dies die Orte der Basisfunktionen regelt. Ist das also nicht die Bedeutung von etwas?

Die Basisfunktion ist auf zentriert . Sie müssen sich entscheiden, wo sich diese Standorte befinden. Also nein, es ist nicht unbedingt der Mittelwert von irgendetwas. $j^{th}$ $\mu_j$

Nun zum Sigma, das "die räumliche Skala regiert". Was genau ist das

ist leichter zu verstehen, wenn wir uns den Basisfunktionen selbst zuwenden. $\sigma$

Es ist hilfreich, sich die Gaußschen radialen Basisfunktionen in niedrigeren Dimensionen vorzustellen, z. B. oder . In die Gaußsche radiale Basisfunktion nur die bekannte Glockenkurve. Die Glocke kann natürlich schmal oder breit sein. Die Breite wird durch - je größer ist, schmaler ist die Glockenform. Mit anderen Worten skaliert die Breite der Glockenform. Für = 1 haben wir also keine Skalierung. Für großes wir eine erhebliche Skalierung. $\mathbb{R}^{1}$ $\mathbb{R}^{2}$ $\mathbb{R}^{1}$ $\sigma$ $\sigma$ $\sigma$ $\sigma$ $\sigma$

Sie können fragen, was der Zweck davon ist. Wenn Sie sich vorstellen, dass die Glocke einen Teil des Raums bedeckt (eine Linie in ), bedeckt eine schmale Glocke nur einen kleinen Teil der Linie *. Punkte Nähe der Glockenmitte haben einen größeren -Wert. Punkte, die weit vom Zentrum entfernt sind, haben einen kleineren -Wert. Durch die Skalierung werden Punkte weiter von der Mitte entfernt verschoben - da sich die Glocke weiter von der Mitte entfernt, wird der Wert von verringert. $\mathbb{R}^{1}$ $x$ $g_j(x)$ $g_j(x)$ $g_j(x)$

Jede Basisfunktion konvertiert den Eingabevektor x in einen Skalarwert

Ja, Sie evaluieren irgendwann die Basisfunktionen . $\mathbf{x}\in\mathbb{R}^{31}$

\exp (- \frac{‖ x - μ_{j} ‖_{2}^{2}}{2 * σ_{j}^{2}})

$\exp\left({-\frac{\|\mathbf{x}-\mu_j\|_2^2}{2*\sigma_j^2}}\right)$

Als Ergebnis erhalten Sie einen Skalar. Das skalare Ergebnis hängt von der Entfernung des Punktes vom Zentrum gegeben durch und der skalaren . $\mathbf{x}$ $\mu_j$ $\|\mathbf{x}-\mu_j\|$ $\sigma_j$

Ich habe einige Implementierungen gesehen, die Werte wie .1, .5, 2.5 für diesen Parameter ausprobieren. Wie werden diese Werte berechnet?

Dies ist natürlich einer der interessanten und schwierigen Aspekte der Verwendung von Gaußschen radialen Basisfunktionen. Wenn Sie im Internet suchen, finden Sie viele Vorschläge, wie diese Parameter bestimmt werden. Ich werde in sehr einfachen Worten eine Möglichkeit umreißen, die auf Clustering basiert. Sie können dieses und einige andere Vorschläge online finden.

Beginnen Sie mit dem Clustering Ihrer 10000 Stichproben (Sie könnten zuerst PCA verwenden, um die Dimensionen zu reduzieren, gefolgt von k-Means-Clustering). Sie können die Anzahl der gefundenen Cluster angeben (in der Regel wird eine Kreuzvalidierung verwendet, um das beste zu ermitteln ). Erstellen Sie nun für jeden Cluster eine radiale Basisfunktion . Für jede radiale Basisfunktion sei das Zentrum (z. B. Mittelwert, Schwerpunkt usw.) des Clusters. Lassen Sie die Breite des Clusters widerspiegeln (z. B. Radius ...). Führen Sie nun Ihre Regression durch (diese einfache Beschreibung ist nur eine Übersicht - bei jedem Schritt ist viel Arbeit erforderlich!). $m$ $m$ $g_j$ $\mu_j$ $\sigma_j$

* Natürlich ist die Glockenkurve von - bis sodass überall auf der Linie ein Wert angezeigt wird. Die Werte weit vom Zentrum sind jedoch vernachlässigbar $\infty$ $\infty$

— martino
quelle

Gute Antwort! Beenden wir die Suche nach

jedoch nicht mit der Regression der Support-Vektor-Maschine (mit Gauß-Kernel)?

μ

$\mu$

— O_Devinyak

@ O_Devinyak- Viele Basiserweiterungsmethoden erfordern eine Art Parameterschätzung. Es gibt viele Möglichkeiten,

zu finden, daher denke ich nicht, dass dies bedeutet, dass wir das Problem auf SVR reduzieren. Um ehrlich zu sein, ich bin kein Experte für SVR, aber die Verlustfunktion, die minimiert wird, ist sicherlich anders und ich bin sicher, dass viele der Funktionen ignoriert werden - das ist der Support Vector-Weg. Mit Basisfunktionen nutzen wir alle Funktionen zur Auswertung, aber glücklicherweise bedeutet die kompakte Unterstützung, dass viele der Basisfunktionen vernachlässigbare oder Nullwerte zurückgeben. Wie auch immer, es wäre eine gute Frage in diesem Forum

μ

$\mu$

— Martino

Warum brauchen wir eine Skala

anstelle einer Kovarianzmatrix, die die Basisfunktion wie den exponentiellen Teil eines multivariaten Gaußschen aussehen lässt?

σ_{j}

$\sigma_j$

— Stackunderflow

1

$j$ $y=\beta_0+\sum_{j=1:31}{\beta_j\phi_j(x)}$ $j$ $y$ $\beta_j$ $\phi_j(x)$ $y_j=\beta\phi_j(x)$ $j$ $y_j$ $\beta$ $\phi_j(x)$ $i$ $j$

$y_i$ $x_i$ $x_i$ $\mu_i$ $y_i$ $j$ $i$ $j$ $j$ $\mu_{ij}$ $\mu_j$ $\sigma^2$ $y$ $y$ $\sigma^2$

— O_Devinyak
quelle

0

$x\in\mathbb{R}^{31}$ $\mu_j\in\mathbb{R}^{31}$ $e^{(x-\mu_j)'\Sigma_j^{-1}(x-\mu_j)}$ $\Sigma_j\in\mathbb{R}^{31\times 31}$ $j$ $j$ $\Sigma_j$ $j$

— Karel Macek
quelle