Im Jahr 2015 veröffentlichten Tishby und Zaslavsky ein bekanntes Papier, in dem behauptet wurde, dass das sogenannte Prinzip des Informationsengpasses verwendet werden könnte, um das Verhalten tiefer neuronaler Netze zu verstehen. In einem neueren Artikel (April 2017) erweitern Schwartz-Ziv und Tishby diese Behauptungen und visualisieren insbesondere einige der Ergebnisse.
Später im Jahr 2017 veröffentlichte ein kritischer Artikel von Saxe et al. wurde auf der OpenReview-Website veröffentlicht (mit Überarbeitungen erst vor 2 Wochen). Es wird behauptet, dass viele der in der Zeitung Schwartz-Ziv-Tishby gemachten Behauptungen nicht oder zumindest nicht in der behaupteten Allgemeinheit Bestand haben. Wenn ich sie richtig lese, behaupten sie sogar, dass das visualisierte Ergebnis ein Artefakt der Wahl der Aktivierungsfunktion ist - etwas, das nach der Theorie keine Rolle spielen sollte.
In den Kommentaren tauchen Schwartz-Ziv und Tishby jedoch mit einer langen Liste von Kommentaren zum kritischen Papier auf und sagen, dass die Kritik die Marke verfehlt. Darauf antworten wiederum die Autoren des kritischen Papiers, aber vielleicht ist das Gespräch noch nicht beendet.
Ich bin daran interessiert, ein Forschungsprojekt zu den Deep-Learning-Aspekten des Informationsengpasses zu starten, habe aber Angst, dass ich Zeit damit verschwenden werde, etwas zu lernen, das bereits „widerlegt“ wurde. Daher ist meine Frage:
Wie ist die aktuelle Expertenmeinung zur Anwendbarkeit des Informationsengpass-Prinzips auf das Verständnis von Deep Learning?
Insbesondere interessiere ich mich für Forschung zu einem anderen Thema als dem, was ich verlinkt habe, und für Kommentare von Experten (entweder direkt oder indirekt).