Identifizierbarkeit neuronaler Netzwerkmodelle

Es ist ziemlich intuitiv, dass die meisten Topologien / Architekturen neuronaler Netze nicht identifizierbar sind. Aber was sind einige bekannte Ergebnisse auf diesem Gebiet? Gibt es einfache Bedingungen, die eine Identifizierbarkeit ermöglichen / verhindern? Zum Beispiel,

Alle Netzwerke mit nichtlinearen Aktivierungsfunktionen und mehr als einer verborgenen Schicht sind nicht identifizierbar
Alle Netzwerke mit mehr als zwei versteckten Einheiten sind nicht identifizierbar

Oder solche Dinge. HINWEIS : Ich sage nicht, dass diese Bedingungen die Identifizierbarkeit verhindern (obwohl sie mir als ziemlich gute Kandidaten erscheinen). Sie sind nur Beispiele dafür, was ich mit "einfachen Bedingungen" meine.

Wenn es hilft, die Frage einzugrenzen, können Sie nur Feed-Forward- und wiederkehrende Architekturen berücksichtigen. Wenn dies immer noch nicht ausreicht, würde ich mich mit einer Antwort zufrieden geben, die mindestens eine Architektur zwischen MLP, CNN und RNN abdeckt. Ich habe mich im Web kurz umgesehen, aber es sieht so aus, als ob die einzige Diskussion, die ich finden konnte, Reddit war. Komm schon, Leute, wir können es besser machen als Reddit ;-)

— DeltaIV
quelle

Was ist der Zweck dieser akademischen Übung?

— Aksakal

Kann ich bitte fragen, was Sie aus der vorhandenen Literatur betrachtet / untersucht haben? Dies scheint eine sehr Nischenfrage zu sein; Die wenigen relevanten Referenzen, die ich gesehen habe, sind eher in der Literatur zur Systemidentifikation als in der Standard-ML enthalten (z. B. 1 , 2 , 3 ). Können Sie bitte Ihre Frage im Kontext von ML etwas genauer definieren? Die Identifizierbarkeit ist hauptsächlich ein Aspekt von Steuerungssystemen. Beziehen Sie sich "nur" auf eine 1-1-Beziehung?

— usεr11852

Ich denke, Sie sollten in der Lage sein, diese Ergebnisse mit dem impliziten Funktionssatz leicht zu beweisen.

— Alex R.

@Aksakal Was ist der Zweck der Berechnung der Wahrscheinlichkeit, dass die Urne mittags leer ist, nach unendlichen Schritten, in denen 10 Kugeln hinzugefügt und eine entfernt werden? . Niemand, aber die Frage hat Spaß gemacht. Nicht alle Fragen müssen von praktischer Relevanz sein, um eine Beantwortung wert zu sein. Oder Sie könnten sagen, dass die mangelnde Identifizierbarkeit Sie daran hindert, präzise Rückschlüsse auf die NN-Gewichte zu ziehen, aber das wäre eine falsche Rechtfertigung, da fast niemand interessiert ist ...

— DeltaIV

@ DeltaIV, es ist eine gültige Frage für den Lebenslauf. Ich fürchte, das Problem ist, dass niemand daran interessiert ist, über dieses Zeug nachzudenken. Jeder ist damit beschäftigt, Modelle zu bauen und Geld zu verdienen, wenn die Modelle aufhören zu arbeiten, dann werden arbeitslose KI-Denker über die Identifizierbarkeit

— nachdenken

Antworten:

Lineare einschichtige FFNs sind nicht identifiziert

Die Frage wurde seitdem bearbeitet, um diesen Fall auszuschließen. Ich behalte es hier bei, weil das Verständnis des linearen Falls ein einfaches Beispiel für das interessierende Phänomen ist.

Betrachten Sie ein vorwärts gerichtetes neuronales Netzwerk mit 1 verborgenen Schicht und allen linearen Aktivierungen. Die Aufgabe ist eine einfache OLS-Regressionsaufgabe.

Wir haben also das Modell und das Ziel ist $\hat{y}=X A B$

\underset{EIN, B.}{Mindest} \frac{1}{2} | | y - - X. EIN B. | |_{2}^{2}

$\min_{A,B} \frac{1}{2}|| y - X A B ||_2^2$

für eine Auswahl von von geeigneter Form. ist das Gewicht von Eingabe zu Verstecktheit und ist das Gewicht von Versteckt zu Ausgabe. $A, B$ $A$ $B$

Offensichtlich sind die Elemente der Gewichtsmatrizen im Allgemeinen nicht identifizierbar, da es eine beliebige Anzahl möglicher Konfigurationen gibt, für die zwei Matrizenpaare das gleiche Produkt haben. $A,B$

Nichtlineare einschichtige FFNs sind noch nicht identifiziert

Aufbauend auf dem linearen einschichtigen FFN können wir auch eine Nichtidentifizierbarkeit im nichtlinearen einschichtigen FFN beobachten.

Wenn Sie beispielsweise einer der linearen Aktivierungen eine Nichtlinearität hinzufügen, wird ein nichtlineares Netzwerk erstellt. Dieses Netzwerk ist immer noch nicht identifiziert, da für jeden Verlustwert eine Permutation der Gewichte von zwei (oder mehr) Neuronen auf einer Schicht und ihren entsprechenden Neuronen auf der nächsten Schicht ebenfalls zu demselben Verlustwert führt. $\tanh$

Im Allgemeinen werden neuronale Netze nicht identifiziert

Wir können dieselbe Argumentation verwenden, um zu zeigen, dass neuronale Netze in allen bis auf ganz bestimmte Parametrisierungen nicht identifiziert werden.

Zum Beispiel gibt es keinen besonderen Grund, warum Faltungsfilter in einer bestimmten Reihenfolge auftreten müssen. Es ist auch nicht erforderlich, dass Faltungsfilter ein bestimmtes Vorzeichen haben, da nachfolgende Gewichte das entgegengesetzte Vorzeichen haben könnten, um diese Wahl "umzukehren".

Ebenso können die Einheiten in einem RNN permutiert werden, um den gleichen Verlust zu erhalten.

Siehe auch: Können wir MLE verwenden, um die Gewichte des neuronalen Netzwerks zu schätzen?

— Sycorax sagt Reinstate Monica
quelle

Ich habe diesen Fall (lineare Aktivierungsfunktionen) in den Kommentaren zu meiner Frage ausdrücklich ausgeschlossen, da es trivial ist, ausgehend von diesem Modell ein identifizierbares Modell zu erhalten, das mit einer einfachen Neuparametrisierung genau die gleichen Vorhersagen liefert . Es ist sozusagen nicht "an sich nicht identifizierbar". Ich bezog mich also speziell auf nichtlineare Aktivierungsfunktionen. Aber ich denke, dass ich das in meine Frage aufnehmen und nicht nur in Kommentaren belassen sollte. In ein paar Stunden werde ich meine Frage entsprechend ändern.

— DeltaIV

Es wird empfohlen, Ihre Frage zu bearbeiten, um zu klären, worüber Sie wissen möchten.

— Sycorax sagt Reinstate Monica

Du hast recht, das tue ich normalerweise, aber diesmal habe ich es vergessen. Mein Fehler.

— DeltaIV

Da mindestensglobale Optima bei der Anpassung eines 1-schichtigen neuronalen Netzwerks, das aus Neuronen besteht. Dies ergibt sich aus der Tatsache, dass Sie genau die gleiche Anpassung erhalten, wenn Sie zwei Neuronen auf einer bestimmten Ebene austauschen und dann die diesen Neuronen zugewiesenen Gewichte auf der nächsten Ebene austauschen. $n!$ $n$

— RUser4512
quelle