Das Thema meiner Dissertation war es, die Black-Box-Eigenschaften von neuronalen Netzen, insbesondere Feed-Forward-Netzen, mit einer oder zwei versteckten Schichten aufzudecken.
Ich werde mich der Herausforderung stellen und allen erklären, was die Gewichtungen und Verzerrungsbezeichnungen in einem einschichtigen neuronalen Feed-Forward-Netzwerk bedeuten. Es werden zwei verschiedene Perspektiven angesprochen: eine parametrische und eine probabilistische.
Im Folgenden gehe ich davon aus, dass alle Eingabewerte, die für jedes Eingabe-Neuron bereitgestellt werden, durch lineare Skalierung ( ) auf das Intervall (0,1) normiert wurden , wobei die beiden Die Koeffizienten und werden pro Eingangsvariable so gewählt, dass . Ich unterscheide zwischen Variablen mit reellen Zahlen und Variablen mit Aufzählungen (mit einer booleschen Variablen als Aufzählungsvariable für Sonderfälle):xinput=α⋅x+βαβxinput∈(0,1)
- Eine reelle Variable wird nach linearer Skalierung als Dezimalzahl zwischen und .01
- Eine aufgezählte Variable, nämlich die Wochentage (Montag, Dienstag usw.), werden durch Eingabeknoten dargestellt, wobei die Anzahl der möglichen Ergebnisse darstellt, dh für die Anzahl der Tage in einer Woche.vv7
Eine solche Darstellung Ihrer Eingabedaten ist erforderlich, um die (absolute) Größe der Gewichte in der Eingabeebene interpretieren zu können.
Parametrische Bedeutung:
- Je größer der absolute Wert des Gewichts zwischen einem Eingangsneuron und einem versteckten Neuron ist, desto wichtiger ist diese Variable für das "Feuern" dieses bestimmten versteckten Knotens. Gewichte nahe bei
zeigen an, dass ein Eingangswert ist so gut wie irelevant. 0
- Das Gewicht von einem versteckten Knoten zu einem Ausgangsknoten gibt an, dass die gewichtete Verstärkung der Eingangsvariablen, die im absoluten Sinne am stärksten von diesem versteckten Neuron verstärkt werden, den jeweiligen Ausgangsknoten fördert oder dämpft. Das Vorzeichen des Gewichts zeigt Beförderung (positiv) oder Hemmung (negativ) an.
- Der dritte Teil, der in den Parametern des neuronalen Netzes nicht explizit dargestellt ist, ist die multivariate Verteilung der Eingangsvariablen. Das heißt, wie oft kommt es vor, dass der Wert für den Eingabeknoten bereitgestellt wird - mit dem wirklich hohen Gewicht für den versteckten Knoten ?132
- Ein Bias-Term ist nur eine Übersetzungskonstante, die den Durchschnitt eines versteckten (oder Ausgabe-) Neurons verschiebt. Es verhält sich wie die oben dargestellte Verschiebung .β
Rückschluss auf ein Ausgangsneuron : Welche versteckten Neuronen haben bei ihren Verbindungen zu den Ausgangsneuronen die höchsten absoluten Gewichtswerte? Wie oft nähert sich die Aktivierung jedes versteckten Knotens (unter der Annahme von Sigmoid-Aktivierungsfunktionen). Ich spreche von Frequenzen, gemessen über den Trainingssatz. Um genau zu sein: Was ist die Frequenz , mit der die verborgenen Knoten und , mit großen Gewichten an das Eingangsvariablen und , dass diese verborgenen Knoten und sind nah an1iltsil1? Jeder versteckte Knoten gibt per Definition einen gewichteten Durchschnitt seiner Eingabewerte weiter. Welche Eingangsvariablen fördert - oder hemmt jeder versteckte Knoten in erster Linie? Auch das erklärt viel, den absoluten Gewichtsunterschied zwischen den Gewichten, die vom versteckten Knoten zu den beiden Ausgangsknoten auffächern und .Δj,k=∣wi,j−wi,k∣ijk
Die wichtigeren versteckten Knoten sind für einen Ausgangsknoten (der über die Trainingsmenge in Frequenzen spricht), welche 'Eingangsgewichte mal Eingangsfrequenzen' sind am wichtigsten? Dann nähern wir uns der Bedeutung der Parameter der vorwärtsgerichteten neuronalen Netze.
Probabilistische Interpretation:
Die Wahrscheinlichkeitsperspektive bedeutet, ein klassifiziertes neuronales Netz als einen Bayes-Klassifikator (den optimalen Klassifikator mit der theoretisch definierten niedrigsten Fehlerrate) zu betrachten. Welche Eingangsgrößen beeinflussen das Ergebnis des neuronalen Netzes - und wie oft? Betrachten Sie dies als probabilistische Sensitivitätsanalyse. Wie oft kann das Variieren einer Eingangsvariablen zu einer anderen Klassifizierung führen? Wie oft Eingabeneuron haben potenziellen Einfluss auf der Klassifizierungen Ergebnis wird am ehesten, was bedeutet , dass das entsprechende Ausgang Neuron den höchsten Wert erreicht?xinput
Einzelfallmuster
Wenn ein reell nummeriertes Eingangsneuron geändert wird, ändert sich wahrscheinlich die Klassifikation. Wir sagen, dass diese Variable potenziellen Einfluss hat . Beim Variieren des Ergebnisses einer aufgezählten Variablen (Ändern des Wochentags von Montag auf Dienstag oder einen anderen Wochentag) ) und die wahrscheinlichsten Ergebnisänderungen, dann hat diese aufgezählte Variable potenziellen Einfluss auf das Ergebnis der Klassifizierung.xinput[1,0,0,0,0,0,0][0,1,0,0,0,0,0]
Wenn wir nun die Wahrscheinlichkeit dieser Änderung berücksichtigen, dann sprechen wir den erwarteten Einfluss aus . Wie groß ist die Wahrscheinlichkeit, eine sich ändernde Eingabevariable , sodass sich das Ergebnis im Eingabefall ändert, wenn man die Werte aller anderen Eingaben berücksichtigt ? Der erwartete Einfluss bezieht sich auf den erwarteten Wert von , nämlich . Hier ist der Vektor aller Eingabewerte mit Ausnahme von input . Beachten Sie, dass eine aufgezählte Variable durch eine Reihe von Eingabe-Neuronen dargestellt wird. Diese möglichen Ergebnisse werden hier als eine Variable angesehen. x i n p u t E ( x i n p u t | x - i n p u t ) x - i n p u t x i n p u txinputxinputE(xinput∣x−input)x−inputxinput
Deep Leaning - und die Bedeutung der NN-Parameter
Neuronale Netze haben im letzten Jahrzehnt bemerkenswerte Fortschritte gemacht. Die 1989 von LeCunn eingeführten faltungsbedingten neuronalen Netze haben sich im Hinblick auf die Bilderkennung als sehr leistungsfähig erwiesen. Es wurde berichtet, dass sie die meisten anderen computergestützten Erkennungsansätze übertreffen können.
Interessante emergente Eigenschaften treten auf, wenn Faltungs-Neuronale Netze für die Objekterkennung trainiert werden. Die erste Schicht verborgener Knoten stellt Merkmaldetektoren auf niedriger Ebene dar, ähnlich den Skalenraumoperatoren T. Lindeberg, Merkmalerkennung mit automatischer Skalenauswahl , 1998 . Diese Scale-Space-Operatoren erkennen
- Linien,
- Ecken,
- T-Kreuzungen
und einige andere grundlegende Bildfunktionen.
Noch interessanter ist die Tatsache, dass sich gezeigt hat, dass Wahrnehmungsneuronen im Gehirn von Säugetieren dieser Arbeitsweise in den ersten Schritten der (biologischen) Bildverarbeitung ähneln. Mit CNNs nähert sich die Wissenschaft dem an, was die menschliche Wahrnehmung so phänomenal macht. Daher lohnt es sich, diese Forschungsrichtung weiter zu verfolgen.