Universelle Funktionsapproximation

Über den universellen Approximationssatz ist bekannt, dass ein neuronales Netzwerk mit nur einer einzigen verborgenen Schicht und einer willkürlichen Aktivierungsfunktion jede kontinuierliche Funktion approximieren kann.

Welche anderen Modelle gibt es, die auch universelle Funktionsapproximatoren sind

machine-learning function approximation

— Opt
quelle

Ich bin dieser Site beigetreten, um diese Frage und einige der Antworten zu beantworten.

— Prasad Raghavendra

Dies wird in der Statistikliteratur unter dem Thema Regression ausführlich behandelt. Zwei Standardreferenzen sind Wassermans Buch "Alle nichtparametrischen Statistiken" und Tsibakows "Einführung in die nichtparametrische Schätzung". Ich werde kurz auf einige der Standardmaterialien eingehen und versuchen, Hinweise außerhalb der Statistik zu geben (dies ist ein gemeinsames Thema, und verschiedene Bereiche haben unterschiedliche Kulturen: unterschiedliche Arten von Theoremen beweisen, unterschiedliche Annahmen treffen).

(Kernel-Regressoren, manchmal auch Nadaraya-Watson-Schätzer genannt.) Hier schreiben Sie die Funktion an einer beliebigen Stelle als gewichtete Kombination von Werten in der Nähe. Genauer gesagt, da dies in der Statistikliteratur steht, nehmen Sie normalerweise an, dass Sie einige Beispiele aus einer bestimmten Verteilung ziehen und einen Kernel korrigieren (dies kann man sich so vorstellen) eine Gaußsche, aber Mittelwert Null ist , was am wichtigsten ist ), und schreiben $((x_i,f(x_i)))_{i=1}^n$ $K$ wobei(Sie sind empfindlicher für kleine Entfernungen, wennzunimmt). Die Garantie ist, dass alsein probilistisches Verzerrungskriterium (Erwartung der Supernorm, hohe Wahrscheinlichkeit, was auch immer) gegen Null geht. (Es ist kaum von Bedeutung, wieaussieht - es ist wichtiger, wie Sieauswählen.)
$\hat{f} (x) : = \sum_{ich} f (x_{ich}) (\frac{K (c_{n} (x - x_{ich}))}{\sum_{j} K (c_{n} (x - x_{j}))}),$ $\hat f(x) := \sum_i f(x_i) \left(\frac{ K(c_n(x-x_i)) }{ \sum_j K(c_n(x-x_j))}\right),$ $c_n\to\infty$ $n$ $n\to\infty$ $K$ $c_n$
$L^2$ $\hat f$ $f$ . Um ein Gefühl für die Vielfalt der Ansätze zu bekommen, ist Rahimi & Recht mit seiner Arbeit "eine einheitliche Approximation von Funktionen mit zufälligen Basen". Vielleicht sollte ich sagen, dass der Urvater von all diesen die Fourier-Erweiterung ist; In Mallats Buch über Wavelets gibt es viel gutes Material dazu.
(Baummethoden.) Eine andere Möglichkeit besteht darin, eine Funktion als Baum zu betrachten. Auf jeder Ebene arbeiten Sie mit einer Partition der Domäne und geben beispielsweise den Durchschnittspunkt zurück. (Mit jedem Beschneiden des Baums wird auch eine Partition erstellt.) Im Endeffekt wird die Funktion durch die Feinheit dieser Partition nicht mehr diskretisiert, und Sie haben sie exakt rekonstruiert. Wie man diese Partition am besten auswählt, ist ein schwieriges Problem. (Sie können dies unter "Regressionsbaum" googeln.)
(Polynommethoden; siehe auch Splines und andere Interpolationstechniken.) Durch Taylors Theorem wissen Sie, dass Sie gut verhaltenen Funktionen beliebig nahe kommen können. Dies mag wie ein sehr grundlegender Ansatz erscheinen (dh verwenden Sie einfach das interpolierende Lagrange-Polynom), aber wo die Dinge interessant werden, ist die Entscheidung, welcheszeigt auf Interpolation. Dies wurde im Rahmen der numerischen Integration eingehend untersucht; Unter den Themen "Clenshaw-Curtis-Quadratur" und "Gaußsche Quadratur" finden Sie einige erstaunliche Mathematik. Ich werfe das hier rein, weil die Arten von Annahmen und Garantien hier so drastisch anders sind als das, was oben erscheint. Ich mag dieses Gebiet, aber diese Methoden leiden sehr unter dem Fluch der Dimension. Zumindest denke ich, dass dies der Grund ist, warum sie weniger diskutiert werden als früher. Stichprobentechniken für multivariate Domänen).

Unter Berücksichtigung verschiedener Einschränkungen für Ihre Funktionsklasse können Sie die oben genannten Instanzen erstellen, um alle möglichen anderen häufig verwendeten Szenarien abzurufen. Beispielsweise ähnelt die Schwellenwertbildung (1.) bei Funktionen mit Booleschem Wert einem Schätzer für den nächsten Nachbarn oder einer SVM mit einem lokalen Kernel (Gauß). Viele der oben genannten Dinge leiden unter dem Fluch der Dimension (Grenzen weisen eine exponentielle Abhängigkeit von der Dimension auf). Beim maschinellen Lernen können Sie dies umgehen, indem Sie Ihre Klasse explizit auf eine bestimmte Familie beschränken (dh auf "parametrische Methoden") oder auf eine implizite Einschränkung, die normalerweise die Qualität der Approximanten mit der Zielfunktionskomplexität in Beziehung setzt (dh auf ein Analogon der schwache Lernannahme beim Boosten).

$f:\mathbb{R}^d \to \mathbb{R}$

f (x) = \sum_{j = 0}^{2 d} h_{j} (\sum_{ich = 1}^{d} G_{j, ich} (x_{ich})),

$f(x) = \sum_{j=0}^{2d}h_j\left(\sum_{i=1}^d g_{j,i}(x_i)\right),$

g_{j, i} : R \to R

$g_{j,i} : \mathbb{R}\to\mathbb{R}$

h_{j} : R \to R

$h_j:\mathbb{R}\to\mathbb{R}$

g

$g$

h

$h$

Θ (d^{2})

$\Theta(d^2)$

(Sie haben nur nach Funktionsklassen gefragt, aber ich dachte, Sie wären auch an Methoden interessiert. Wenn nicht. Hoppla.)

— matus
quelle

"Ab 1957!", Ist das das Exponential von 1957, also aus der Zukunft ?! :)

— nbro