Gibt es derzeit einen Konsens über den Wert des Informationsengpass-Prinzips für das Verständnis von Deep Learning?

Im Jahr 2015 veröffentlichten Tishby und Zaslavsky ein bekanntes Papier, in dem behauptet wurde, dass das sogenannte Prinzip des Informationsengpasses verwendet werden könnte, um das Verhalten tiefer neuronaler Netze zu verstehen. In einem neueren Artikel (April 2017) erweitern Schwartz-Ziv und Tishby diese Behauptungen und visualisieren insbesondere einige der Ergebnisse.

Später im Jahr 2017 veröffentlichte ein kritischer Artikel von Saxe et al. wurde auf der OpenReview-Website veröffentlicht (mit Überarbeitungen erst vor 2 Wochen). Es wird behauptet, dass viele der in der Zeitung Schwartz-Ziv-Tishby gemachten Behauptungen nicht oder zumindest nicht in der behaupteten Allgemeinheit Bestand haben. Wenn ich sie richtig lese, behaupten sie sogar, dass das visualisierte Ergebnis ein Artefakt der Wahl der Aktivierungsfunktion ist - etwas, das nach der Theorie keine Rolle spielen sollte.

In den Kommentaren tauchen Schwartz-Ziv und Tishby jedoch mit einer langen Liste von Kommentaren zum kritischen Papier auf und sagen, dass die Kritik die Marke verfehlt. Darauf antworten wiederum die Autoren des kritischen Papiers, aber vielleicht ist das Gespräch noch nicht beendet.

Ich bin daran interessiert, ein Forschungsprojekt zu den Deep-Learning-Aspekten des Informationsengpasses zu starten, habe aber Angst, dass ich Zeit damit verschwenden werde, etwas zu lernen, das bereits „widerlegt“ wurde. Daher ist meine Frage:

Wie ist die aktuelle Expertenmeinung zur Anwendbarkeit des Informationsengpass-Prinzips auf das Verständnis von Deep Learning?

Insbesondere interessiere ich mich für Forschung zu einem anderen Thema als dem, was ich verlinkt habe, und für Kommentare von Experten (entweder direkt oder indirekt).

— Mees de Vries
quelle

Ich denke, es ist erwähnenswert, dass dies ein aktives Forschungsgebiet ist und dass dies ein sehr aktuelles Papier ist. Die Überprüfungen vor der Veröffentlichung, die Begutachtung durch Fachkollegen und die Antworten nach der Veröffentlichung sollten insgesamt als ein fortlaufendes Gespräch über das Thema angesehen werden und nicht als ein bestimmter Schritt in dem Prozess, der das "letzte Wort" umfasst. Oder nach Hegelscher Auffassung umfasst der von Ihnen zitierte Dialog die These-Antithese-Komponenten der Triade, und wir müssen noch zur Synthese gelangen.

— Sycorax sagt Reinstate Monica

überhaupt kein Konsens! Probieren Sie es aus: Ich und viele andere in der Deep Learning-Community würden gerne mehr Arbeit daran sehen. Sicher, es besteht die Gefahr eines Ausfalls, aber das haben Sie immer in der Forschung. Ich kann das Risiko der "Zeitverschwendung" nicht kommentieren, da es davon abhängt, was auf dem Spiel steht: 5 Jahre Ph.D.

⟹

$\implies$ erhebliche persönliche Investition und damit höheres Risiko. 2 Jahre Postdoc

⟹

$\implies$ weniger Chancen, dass es funktioniert, aber auch weniger zu verlieren. Aber ich kann versuchen, Informationen zu sammeln, damit Sie eine fundiertere Investition tätigen können :-)

— DeltaIV

PS: Es hängt auch von Ihren Karrierezielen ab, die hier nicht zum Thema gehören: Als Forschungsthema ist es für eine akademische Karriere viel schmackhafter. Wenn Sie jedoch in der Industrie arbeiten möchten, gibt es derzeit in Deep Learning fruchtbarere Themen. Dies ist IMO und andere Leute auf dem Gebiet können sich unterscheiden.

— DeltaIV

Was ich hier sagen werde, ist, dass die Beweise, dass die Komprimierung eine bessere Untergrenze für die Verallgemeinerung garantiert, akzeptiert werden, aber es ist nicht allgemein akzeptiert, wenn diese Untergrenze praktisch relevant ist.

Beispielsweise kann ein Modell mit besserer Komprimierung die Untergrenze von 1,0 auf 1,5 erhöhen, dies ist jedoch möglicherweise nicht relevant, wenn alle Modelle bereits eine Leistung von 2,0 bis 2,5 aufweisen. Ebenso denke ich, dass es offensichtlich ist, dass die Komprimierung zwar für ein gewisses Maß an garantierter Generalisierung ausreicht, aber eindeutig nicht erforderlich ist (zum Beispiel können invertierbare neuronale Netze eine gute Generalisierung erhalten).

Wahrscheinlich ist die richtige Schlussfolgerung, dass Theorie und Analyse eine nützliche Richtung sind, aber es ist unklar, ob sie etwas über reale Netzwerke aussagen.

— Alex Lamb
quelle