Ich habe mehr als ein Jahr lang über das Paradigma der extremen Lernmaschine (Extreme Learning Machine, ELM) nachgedacht, es implementiert und verwendet. Je länger ich es tue, desto mehr bezweifle ich, dass es wirklich eine gute Sache ist. Meine Meinung scheint jedoch im Gegensatz zur wissenschaftlichen Gemeinschaft zu stehen, wo es - wenn man Zitate und neue Veröffentlichungen als Maß verwendet - ein heißes Thema zu sein scheint.
Das ELM wurde von Huang et. al. Die zugrunde liegende Idee ist ziemlich einfach: Beginnen Sie mit einem 2-schichtigen künstlichen neuronalen Netzwerk und ordnen Sie die Koeffizienten in der ersten Schicht zufällig zu. Damit transformiert man das nichtlineare Optimierungsproblem, das üblicherweise über Backpropagation behandelt wird, in ein einfaches lineares Regressionsproblem. Genauer gesagt, für ist das Modell
Nun werden nur die angepasst (um den quadratischen Fehlerverlust zu minimieren), während die zufällig ausgewählt werden. Als Ausgleich für den Verlust an Freiheitsgraden wird üblicherweise vorgeschlagen, eine größere Anzahl versteckter Knoten (dh freie Parameter ) zu verwenden.v i k w i
Aus einer anderen Perspektive (nicht die, in der Regel in der Literatur gefördert werden , die ich aus der neuronalen Netz Seite kommt), das gesamte Verfahren ist einfach lineare Regression, sondern ein , wo Sie Ihre Basisfunktionen wählen zufällig, zum Beispiel
(Für die Zufallsfunktionen sind neben dem Sigmoid viele andere Optionen möglich. Beispielsweise wurde dasselbe Prinzip auch für radiale Basisfunktionen angewendet.)
Unter diesem Gesichtspunkt wird die gesamte Methode fast zu simpel, und dies ist auch der Punkt, an dem ich anfange zu bezweifeln, dass die Methode wirklich gut ist (... obwohl das wissenschaftliche Marketing dies sicherlich ist). Also, hier sind meine Fragen:
Die Idee, den Eingaberaum mit zufälligen Basisfunktionen zu rastern, ist meiner Meinung nach gut für niedrige Dimensionen. In großen Dimensionen denke ich, ist es einfach nicht möglich, eine gute Auswahl durch Zufallsauswahl mit einer angemessenen Anzahl von Basisfunktionen zu finden. Verschlechtert sich das ELM daher in hohen Dimensionen (aufgrund des Fluchs der Dimensionalität)?
Kennen Sie experimentelle Ergebnisse, die diese Meinung stützen / widersprechen? In dem verlinkten Artikel gibt es nur einen 27-dimensionalen Regressionsdatensatz (PYRIM), in dem die Methode ähnlich wie SVMs abläuft (wobei ich mir einen Vergleich mit einem Backpropagation-ANN eher wünschen würde).
Generell möchte ich hier Ihre Anmerkungen zur ELM-Methode machen.