Neuronales Netz - Bedeutung von Gewichten


11

Ich verwende Feed-Forward NN. Ich verstehe das Konzept, aber meine Frage betrifft Gewichte. Wie können Sie sie interpretieren, dh was stellen sie dar oder wie können sie ungestört sein (nur Funktionskoeffizienten)? Ich habe etwas gefunden, das "Raum der Gewichte" genannt wird, bin mir aber nicht ganz sicher, was es bedeutet.


Antworten:


6

Einzelne Gewichte repräsentieren die Stärke der Verbindungen zwischen Einheiten. Wenn das Gewicht von Einheit A zu Einheit B größer ist (alle anderen sind gleich), bedeutet dies, dass A einen größeren Einfluss auf B hat (dh das Aktivierungsniveau von B erhöht oder verringert).

Sie können sich den Satz der an eine Einheit eingehenden Gewichte auch als Maß dafür vorstellen, was diese Einheit "interessiert". Dies ist in der ersten Schicht am einfachsten zu erkennen. Angenommen, wir haben ein Bildverarbeitungsnetzwerk. Frühe Einheiten erhalten gewichtete Verbindungen von Eingabepixeln. Die Aktivierung jeder Einheit ist eine gewichtete Summe von Pixelintensitätswerten, die durch eine Aktivierungsfunktion geleitet werden. Da die Aktivierungsfunktion monoton ist, ist die Aktivierung einer bestimmten Einheit höher, wenn die Eingangspixel den eingehenden Gewichten dieser Einheit ähnlich sind (im Sinne eines Produkts mit großen Punkten). Sie können sich die Gewichte also als einen Satz von Filterkoeffizienten vorstellen, die ein Bildmerkmal definieren. Bei Einheiten in höheren Schichten (in einem Feedforward-Netzwerk) stammen die Eingaben nicht mehr von Pixeln, sondern von Einheiten in niedrigeren Schichten. Die eingehenden Gewichte sind also eher wie '

Ich bin mir nicht sicher über Ihre ursprüngliche Quelle, aber wenn ich über "Gewichtsraum" sprechen würde, würde ich mich auf die Menge aller möglichen Werte aller Gewichte im Netzwerk beziehen.


In Bezug auf Ihre obige Antwort: "Die Aktivierung einer bestimmten Einheit ist höher, wenn die Eingabepixel den eingehenden Gewichten dieser Einheit ähnlich sind (im Sinne eines Produkts mit großen Punkten)." Bedeutet dies, dass die Aktivierung der versteckten Einheit höher ist, wenn die Eingaben den Gewichten zwischen der Eingabe und der versteckten Einheit ähnlich sind?
Ironluca

1
Dies bedeutet, dass die Aktivierung der versteckten Einheit größer ist, wenn das Punktprodukt zwischen der Eingabe und den Gewichten der versteckten Einheit größer ist. Man kann sich das Punktprodukt als relatives Maß für die Ähnlichkeit vorstellen. Angenommen, wir möchten zwei Vektoren und x 2 (mit derselben Norm) mit einem dritten Vektor y vergleichen . x 1 ist y ähnlicher als x 2, wenn x 1y > x 2y ist , in dem Sinne, dass der Winkel zwischen x 1 und y kleiner ist als der zwischen x 2x1x2yx1yx2x1y>x2yx1yx2und . Ich sage relativ, weil es von der Norm abhängt. Siehe en.wikipedia.org/wiki/Cosine_distance . y
user20160

6

Nun, es hängt von einer Netzwerkarchitektur und einer bestimmten Schicht ab. Im Allgemeinen sind NNs nicht interpretierbar. Dies ist ihr Hauptnachteil bei der Analyse kommerzieller Daten (bei denen es Ihr Ziel ist, umsetzbare Erkenntnisse aus Ihrem Modell zu gewinnen).

Aber ich liebe Faltungsnetzwerke, weil sie unterschiedlich sind! Obwohl ihre oberen Schichten sehr abstrakte Konzepte lernen, die für das Transferlernen und die Klassifizierung verwendet werden können und nicht leicht zu verstehen sind, lernen ihre unteren Schichten Gabor-Filter direkt aus Rohdaten (und sind daher als solche Filter interpretierbar). Schauen Sie sich das Beispiel aus einer Le Cun-Vorlesung an:

Geben Sie hier die Bildbeschreibung ein

Darüber hinaus haben M. Zeiler ( pdf ) und viele andere Forscher eine sehr kreative Methode erfunden, um Convnet zu "verstehen" und sicherzustellen, dass sie etwas Nützliches gelernt hat, das als Deconvolutional Networks bezeichnet wird Neuronen hatten die größten Aktivierungen für welche Bilder. Dies ergibt eine atemberaubende Selbstbeobachtung wie diese (einige Schichten wurden unten gezeigt):

Faltungsnetzwerk-Introspektion von M.Zeiler

Graue Bilder auf der linken Seite sind Neuronenaktivierungen (je intensiver - desto größer die Aktivierung) durch Farbbilder auf der rechten Seite. Wir sehen, dass diese Aktivierungen Skelettdarstellungen von echten Bildern sind, dh die Aktivierungen sind nicht zufällig. Wir haben also die feste Hoffnung, dass unser Convnet tatsächlich etwas Nützliches gelernt hat und eine anständige Verallgemeinerung in unsichtbaren Bildern haben wird.


1

Ich denke, Sie bemühen sich zu sehr um das Modell, das nicht zu gut interpretierbar ist. Das neuronale Netz (NN) ist eines der Black-Box-Modelle, mit denen Sie eine bessere Leistung erzielen können. Es ist jedoch schwer zu verstehen, was im Inneren vor sich ging. Außerdem ist es sehr gut möglich, Tausende oder sogar Millionen von Gewichten in NN zu haben.

NN ist eine sehr große nichtlineare nichtkonvexe Funktion, die eine große Menge lokaler Minima aufweisen kann. Wenn Sie es mehrmals mit unterschiedlichen Startpunkten trainieren, sind die Gewichte unterschiedlich. Sie können einige Möglichkeiten finden, um die internen Gewichte zu visualisieren, aber es gibt Ihnen auch nicht zu viele Einblicke.

Hier ist ein Beispiel zur NN-Visualisierung für MNIST-Daten . Die Abbildung oben rechts (unten wiedergegeben) zeigt die transformierten Merkmale nach dem Anwenden der Gewichte.

Geben Sie hier die Bildbeschreibung ein


-1

Einfache Gewichte sind Wahrscheinlichkeit.

Wie wahrscheinlich ist es, dass eine Verbindung die richtige oder falsche Antwort gibt? Selbst falsche Ergebnisse in mehrschichtigen Netzen können nützlich sein. Zu sagen, dass etwas nicht das ist ..


Neugierig, wer mich herabgestimmt hat, haben neuronale Netze einen Ursprung in der Statistik. Lernen Sie Ihre Geschichte ..
user3800527

2
Ich habe nicht abgelehnt, aber die Antwort scheint ehrlich gesagt nicht sehr nützlich zu sein. Ja, einige Netzwerkarchitekturen (wie Boltzmann-Maschinen oder Hopfield-Netzwerke) sind von statistischen Mechanismen inspiriert, aber selbst dort sind Gewichte keine Wahrscheinlichkeiten im Sinne einer "Begrenzung der relativen Häufigkeit eines Ereignisses". Gewichte können auch negativ oder größer als eins sein, Wahrscheinlichkeiten nicht.
Nikie

Wo das Zeichen die Antwort widerspiegelt, ist die Zahl die Wahrscheinlichkeit dafür.
user3800527

Dies gilt nur für begrenzte Architekturen und Schulungsetikettentypen.
Emil
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.