Extreme Lernmaschine: Worum geht es?

Ich habe mehr als ein Jahr lang über das Paradigma der extremen Lernmaschine (Extreme Learning Machine, ELM) nachgedacht, es implementiert und verwendet. Je länger ich es tue, desto mehr bezweifle ich, dass es wirklich eine gute Sache ist. Meine Meinung scheint jedoch im Gegensatz zur wissenschaftlichen Gemeinschaft zu stehen, wo es - wenn man Zitate und neue Veröffentlichungen als Maß verwendet - ein heißes Thema zu sein scheint.

Das ELM wurde von Huang et. al. Die zugrunde liegende Idee ist ziemlich einfach: Beginnen Sie mit einem 2-schichtigen künstlichen neuronalen Netzwerk und ordnen Sie die Koeffizienten in der ersten Schicht zufällig zu. Damit transformiert man das nichtlineare Optimierungsproblem, das üblicherweise über Backpropagation behandelt wird, in ein einfaches lineares Regressionsproblem. Genauer gesagt, für ist das Modell $\mathbf x \in \mathbb R^D$

f (x) = \sum_{i = 1}^{N_{hidden}} w_{i} σ (v_{i 0} + \sum_{k = 1}^{D} v_{i k} x_{k}) .

$f(\mathbf x) = \sum_{i=1}^{N_\text{hidden}} w_i \, \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$

Nun werden nur die angepasst (um den quadratischen Fehlerverlust zu minimieren), während die zufällig ausgewählt werden. Als Ausgleich für den Verlust an Freiheitsgraden wird üblicherweise vorgeschlagen, eine größere Anzahl versteckter Knoten (dh freie Parameter ) zu verwenden. $w_i$ $v_{ik}$ $w_i$

Aus einer anderen Perspektive (nicht die, in der Regel in der Literatur gefördert werden , die ich aus der neuronalen Netz Seite kommt), das gesamte Verfahren ist einfach lineare Regression, sondern ein , wo Sie Ihre Basisfunktionen wählen zufällig, zum Beispiel $\phi$

ϕ_{i} (x) = σ (v_{i 0} + \sum_{k = 1}^{D} v_{i k} x_{k}) .

$\phi_i(\mathbf x) = \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$

(Für die Zufallsfunktionen sind neben dem Sigmoid viele andere Optionen möglich. Beispielsweise wurde dasselbe Prinzip auch für radiale Basisfunktionen angewendet.)

Unter diesem Gesichtspunkt wird die gesamte Methode fast zu simpel, und dies ist auch der Punkt, an dem ich anfange zu bezweifeln, dass die Methode wirklich gut ist (... obwohl das wissenschaftliche Marketing dies sicherlich ist). Also, hier sind meine Fragen:

Die Idee, den Eingaberaum mit zufälligen Basisfunktionen zu rastern, ist meiner Meinung nach gut für niedrige Dimensionen. In großen Dimensionen denke ich, ist es einfach nicht möglich, eine gute Auswahl durch Zufallsauswahl mit einer angemessenen Anzahl von Basisfunktionen zu finden. Verschlechtert sich das ELM daher in hohen Dimensionen (aufgrund des Fluchs der Dimensionalität)?
Kennen Sie experimentelle Ergebnisse, die diese Meinung stützen / widersprechen? In dem verlinkten Artikel gibt es nur einen 27-dimensionalen Regressionsdatensatz (PYRIM), in dem die Methode ähnlich wie SVMs abläuft (wobei ich mir einen Vergleich mit einem Backpropagation-ANN eher wünschen würde).
Generell möchte ich hier Ihre Anmerkungen zur ELM-Methode machen.

regression

— Davidhigh
quelle

Die vollständige Geschichte finden Sie hier: theanonymousemail.com/view/?msg=ZHEZJ1AJ

— davidhigh

Antworten:

Ihre Intuition über die Verwendung von ELM für hochdimensionale Probleme ist richtig. Ich habe einige Ergebnisse dazu, die ich für die Veröffentlichung vorbereite. Bei vielen praktischen Problemen sind die Daten nicht sehr nichtlinear, und das ELM funktioniert recht gut. Es wird jedoch immer Datensätze geben, bei denen der Fluch der Dimensionalität bedeutet, dass die Chance, eine gute Basisfunktion mit Krümmung zu finden, genau dort besteht, wo Sie sie benötigen klein, auch mit vielen Basisvektoren.

Ich persönlich würde so etwas wie eine Vektormaschine zur Unterstützung kleinster Quadrate (oder ein radiales Basisfunktionsnetzwerk) verwenden und versuchen, die Basisvektoren aus denen im Trainingssatz auf gierige Weise auszuwählen (siehe z. B. meine Arbeit , aber es gab andere / bessere) Ansätze, die etwa zeitgleich veröffentlicht wurden, zB im sehr guten Buch von Scholkopf und Smola zum Thema "Lernen mit Kernen"). Ich denke, es ist besser, eine ungefähre Lösung für das genaue Problem zu berechnen, als eine genaue Lösung für ein ungefähres Problem, und Kernel-Maschinen haben eine bessere theoretische Grundlage (für einen festen Kernel; o).

— Dikran Beuteltier
quelle

+1. Ich habe noch nie etwas über ELM gehört, aber aus der Beschreibung im OP geht es ein bisschen um Liquid State Machine (LSM): zufällige Netzwerkkonnektivität und Optimierung nur der Auslesegewichte. In LSM ist das zufällige "Reservoir" jedoch wiederkehrend, wohingegen es in ELM vorwärtsgekoppelt ist. Ist das tatsächlich die Ähnlichkeit und der Unterschied?

— Amöbe sagt Reinstate Monica

k (x, x_{i})

$k(\mathbf x,\mathbf x_i)$

x_{i}

$\mathbf x_i$

@amoeba: Ich kannte die Liquid State Machine nicht, aber von dem, was Sie sagen, hört sie sich in der Tat sehr ähnlich an ... und natürlich technisch allgemeiner. Die Wiederkehr fügt dem Problem jedoch nur eine komplexere Form der Zufälligkeit hinzu, die meiner Meinung nach die Probleme mit dem Fluch der Dimensionalität nicht heilt (... aber ok, wer tut das?). Werden diese Wiederkehrgewichte mit Sorgfalt oder auch völlig zufällig ausgewählt?

— Davidhigh

@davidhigh Für einen RBF-Kernel zeigen die "Repräsentantensätze", dass es keine bessere Lösung gibt, als eine Basisfunktion auf jede Trainingsstichprobe zu zentrieren (wobei einige vernünftige Annahmen über die regulierte Kostenfunktion gemacht werden). Dies ist eine der netten Eigenschaften von Kernelmethoden (und Splines), so dass es nicht erforderlich ist, sie zufällig zu verteilen. Übrigens hat die Konstruktion eines linearen Modells auf der Grundlage zufällig ausgewählter Basisfunktionen eine sehr lange Geschichte. Mein Favorit ist das Perzeptron für die Einzelschichtsuche ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=51949&tag=1, aber ich könnte voreingenommen sein!

— Dikran Beuteltier

@DikranMarsupial Hast du etwas veröffentlicht oder hast du etwas vorveröffentlichtes?

— Tom Hale

Das ELM "lernt" aus den Daten, indem es die Ausgangsgewichte analytisch auflöst. Je größer die Daten sind, die in das Netzwerk eingespeist werden, desto bessere Ergebnisse werden erzielt. Dies erfordert jedoch auch mehr versteckte Knoten. Wenn das ELM mit wenig oder gar keinem Fehler trainiert wird, wenn ein neuer Satz von Eingaben gegeben wird, kann es nicht die richtige Ausgabe erzeugen.

Der Hauptvorteil von ELM gegenüber einem herkömmlichen neuronalen Netz wie einer solchen Rückübertragung ist seine schnelle Trainingszeit. Die meiste Rechenzeit wird für das Lösen des Ausgangsschichtgewichts aufgewendet, wie in Huang-Papier erwähnt.

— user62106
quelle