(Warum) Ist Kohonen-SOM in Ungnade gefallen?

Soweit ich das beurteilen kann, hatten SOMs im Kohonen-Stil um 2005 einen Höhepunkt und sahen in letzter Zeit nicht so viel Gefallen. Ich habe keine Veröffentlichung gefunden, die besagt, dass SOMs durch eine andere Methode subsumiert wurden oder mit etwas anderem gleichwertig sind (jedenfalls in höheren Dimensionen). Aber es scheint, als würden tSNE und andere Methoden heutzutage viel mehr Tinte bekommen, zum Beispiel in Wikipedia oder in SciKit Learn, und SOM wird eher als historische Methode erwähnt.

(Ein Wikipedia-Artikel scheint tatsächlich darauf hinzudeuten, dass SOMs weiterhin gewisse Vorteile gegenüber Mitbewerbern aufweisen, aber es ist auch der kürzeste Eintrag in der Liste. EDIT: Einer der Artikel, über den ich nachdenke, lautet: Nonlinear Dimensionality Reduction Beachten Sie, dass SOM weniger darüber geschrieben hat als die anderen Methoden. Ich kann den Artikel nicht finden, in dem ein Vorteil erwähnt wurde, den SOMs gegenüber den meisten anderen Methoden zu behalten scheinen.)

Irgendwelche Einsichten? Jemand anderes fragte, warum SOMs nicht verwendet werden, und erhielt Referenzen von vor einiger Zeit, und ich habe Verfahren von SOM-Konferenzen gefunden, fragte mich aber, ob der Aufstieg von SVMs oder tSNE, et al., SOMs beim maschinellen Lernen in den Schatten stellte.

EDIT 2: Rein zufällig habe ich heute Abend gerade eine Umfrage zur nichtlinearen Dimensionsreduktion von 2008 gelesen und als Beispiel nur Isomap (2000), Local Linear Embedding (LLE) (2000), Hessian LLE (2003), Laplacian erwähnt Eigenmaps (2003) und Semidefinite Embedding (SDE) (2004).

clustering self-organizing-maps

— Wayne
quelle

Können Sie auf eine der Ressourcen verlinken, auf die Sie verweisen? (ZB welcher Wikipedia-Artikel "scheint darauf hinzuweisen ..."?)

— gung - Wiedereinsetzung von Monica

Sie scheinen in einem Ausmaß in Ungnade gefallen zu sein, dass ich nicht weiß, worauf sich SOM bezieht.

— Matthew Drury

anscheinend selbstorganisierende Karte

— Christoph Hanck

SOM ist nur eine Variante der mehrdimensionalen Skalierung (MDS), die viel älter ist.

— kjetil b halvorsen

@kjetilbhalvorsen: Haben Sie Referenzen zu SOM und MDS? So wie ich es verstehe, ist MDS globaler Natur (bezogen auf PCA), während SOM lokaler Natur ist. Oder vielleicht verstehe ich sie falsch.

— Wayne

Antworten:

Ich denke, Sie sind auf dem richtigen Weg, indem Sie den Einfluss dessen feststellen, was das maschinelle Lernen derzeit als die 'besten' Algorithmen für die Dimensionsreduzierung ankündigt. Während t-SNE seine Wirksamkeit in Wettbewerben wie der Merck Viz Challenge unter Beweis gestellt hat , hatte ich persönlich Erfolg bei der Implementierung von SOM sowohl für die Merkmalsextraktion als auch für die binäre Klassifizierung. Während es sicherlich einige gibt, die SOMs neben dem Alter des Algorithmus ohne Begründung ablehnen (siehe diese Diskussion) , gibt es auch eine Reihe von Artikeln, die in den letzten Jahren veröffentlicht wurden und SOMs implementierten und positive Ergebnisse erzielten (siehe Mortazavi et al., 2013 ; Frenkel et al., 2013zum Beispiel). Eine Google Scholar-Suche zeigt, dass SOMs immer noch in einer Reihe von Anwendungsdomänen verwendet werden. In der Regel ist der beste Algorithmus für eine bestimmte Aufgabe jedoch genau dieser - der beste Algorithmus für eine bestimmte Aufgabe. Wenn eine zufällige Gesamtstruktur für eine bestimmte Binärklassifizierungsaufgabe gut funktioniert hat, kann sie für eine andere schrecklich sein. Gleiches gilt für Clustering-, Regressions- und Optimierungsaufgaben. Dieses Phänomen ist mit dem No-Free-Lunch-Theorem verbunden , aber das ist ein Thema für eine andere Diskussion. Kurz gesagt, wenn SOM für eine bestimmte Aufgabe am besten geeignet ist, sollten Sie diesen Algorithmus für diese Aufgabe verwenden, unabhängig davon, was populär ist.

— Dirigo
quelle

Ich habe nachgeforscht, wie man SOMs mit t-SNE und mehr vergleicht, und eine Verbesserung von SOM vorgeschlagen, die zu einer neuen Effizienz führt. Bitte schau es dir hier an und teile mir dein Feedback mit. Würde gerne eine Vorstellung davon bekommen, was die Leute darüber denken und ob es sich lohnt, es in Python zu veröffentlichen, damit die Leute es verwenden können.

IEEE-Link zum Artikel: http://ieeexplore.ieee.org/document/6178802/

Matlab-Implementierung. https://www.mathworks.com/matlabcentral/fileexchange/35538-cluster-reinforcement--cr--phase

Vielen Dank für Ihre Rückmeldung.

— Narine Hall
quelle

Willkommen bei Cross Validated! Es wäre hilfreich, eine kurze Zusammenfassung Ihrer Erkenntnisse, der von Ihnen erzielten Verbesserungen und möglicherweise auch eine direktere Beantwortung der Frage zu geben.

— Scortchi

Mein subjektiver Standpunkt ist, dass SOMs weniger bekannt sind und als weniger „sexy“ empfunden werden als viele andere Methoden, aber für bestimmte Problemklassen immer noch von hoher Relevanz sind. Es kann durchaus sein, dass sie einen erheblichen Beitrag leisten könnten, wenn sie weiter verbreitet wären. Sie sind in den frühen Stadien der explorativen Datenwissenschaft von unschätzbarem Wert, um ein Gefühl für die "Landschaft" oder "Topologie" multivariater Daten zu bekommen.

Die Entwicklung von Bibliotheken wie Somoclu und Forschungen wie Guénaël Cabanes (unter anderem) zeigen, dass SOMs immer noch relevant sind.

— Matt Wenham
quelle