Exponentielle Lücke auf neuronalen Netzwerkschichten


8

Ich habe hier gelesen, dass es Funktionsfamilien gibt, die Knoten im neuronalen Netzwerk mit höchstens d - 1 Schichten benötigen, um die Funktion darzustellen, während sie nur O ( n ) benötigen, wenn das neuronale Netzwerk mindestens d Schichten hat. Es bezog sich auf ein Papier von Hastad. Ich habe es nicht gefunden. Könnte mir jemand den Titel der Zeitung sagen? Ich denke, das ist ein wirklich faszinierendes theoretisches Ergebnis.O(2n)d1O(n)d


der Schiedsrichter den Sie zitieren Staaten es für Logik - Gattern, formal Neuronen erwiesen und RBFs wurde, und scheint unter Angabe Hastad dieses Ergebnis für bewiesen RBFs (radiale Basis FNS „ den letzteren Fall“).
vzn

Hier könnte es zu Handbewegungen kommen. Die Komplexität von NNs scheint mindestens so schwierig zu sein wie die Komplexität von Schaltkreisen (hat dies jedoch nicht bewiesen), die immer noch voller offener Probleme ist. an anderer Stelle ist diese Frage, die durch eine verwandte Übereinstimmung aufgeworfen wurde, relevant, Rechenleistung von neuronalen Netzen tcs.se (ps, großartig, um hier einige Fragen zum Deep-Learning und dem Feld zu sehen, das zumindest vorläufig mit TCS verknüpft ist)
vzn

Antworten:


9

Das Papier, das normalerweise zitiert wird, ist Fast Optimal Lower Bounds for Small Depth Circuits , das in STOC 1986 erscheint. Das Hauptergebnis Ihrer Frage ist:

Es gibt eine Familie von Funktionen, die Schaltungen mit linearer Größe und Tiefe (mit unbegrenztem Fan-In UND / ODER und NICHT) zulassen, die eine exponentielle Größe in der Tiefe k - 1 erfordern .kk1

Noch relevanter ist die Tatsache, dass eine exponentielle Trennung zwischen Tiefe 3 und Tiefe 2 zulässtTC0 . Dies ist relevant, da Schwellenwertgatter häufig in tiefen Netzwerken verwendet werden.


Es mag sein, dass dies in der neuronalen Netzforschung von einigen zitiert wird und die grundlegende Analogie sieht, aber es hat einen sehr tatsächlichen / direkten Bezug zu neuronalen Netzen. Um dies auszufüllen, wäre eine Referenz, die diese Ergebnisse formal im Rahmen neuronaler Netze verwendet, wertvoll, wenn eine solche Referenz überhaupt existiert.
vzn

Es wird normalerweise als Intuition dafür angeführt, warum Tiefe wichtig ist. Ich denke, das ist eine legitime Verwendung. Es ist jedoch nicht das einzige Beispiel dafür, dass eine größere Tiefe stärker ist.
Suresh Venkat

@SureshVenkat Gibt es eine modernere Überprüfung / Darstellung des obigen Ergebnisses von Hastad? (Ich kann neue Schriften der PARITÄT nicht im AC ^ 0-Beweis sehen, aber nicht von diesem besonderen anderen Ergebnis in der Arbeit)
gradstudent

6

Wörtlich ausgedrückt ist das Problem der exponentiellen Trennung neuronaler Netze der Tiefe d von der Tiefe d-1 für alle d nach meinem besten Wissen offen. Wenn Ihre "Aktivierungsfunktionen" beispielsweise lineare Schwellenwertfunktionen sind, ist offen, ob alle Netze aller Tiefen d mit einer polynomiellen Vergrößerung in Tiefe 3 simuliert werden können.


Haben Sie ein allgemeineres Modell neuronaler Netze im Sinn als oder die in den beiden anderen Antworten genannten Perzeptrone? TC0
András Salamon

Nun, ich spreche von Schaltkreisen, die aus linearen Schwellenfunktionen konstanter Tiefe bestehen. Das ist nicht allgemeiner als mit konstanter Tiefe, Sie benötigen jedoch eine größere konstante Tiefe, um lineare Schwellenwertfunktionen mit T C 0 zu simulieren . Siehe Goldmann, Hastad, Razborov citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.6.1336TC0TC0
Ryan Williams

Ich bin etwas verwirrt über die Referenzen, die hier gegeben wurden. Wie sind diese neuronalen Netze überhaupt, wenn diese Boolesche Funktionen berechnen? Suchen wir nicht nach Trennungsergebnissen für Neuronale Netze mit ReLU-Aktivierung? RnR
Gradstudent

Lesen Sie den in der Frage verlinkten Inhalt, es wird nichts über die Beschränkung auf Funktionen dieser Form erwähnt, noch sind die Aktivierungsfunktionen auf ReLU beschränkt.
Ryan Williams

RnR

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.