Kann man nicht sagen, dass Deep-Learning-Modelle jetzt interpretierbar sind? Sind Nodes Features?

Für statistische und maschinelle Lernmodelle gibt es mehrere Interpretierbarkeitsebenen: 1) den Algorithmus als Ganzes, 2) Teile des Algorithmus im Allgemeinen, 3) Teile des Algorithmus für bestimmte Eingaben, und diese drei Ebenen sind in jeweils zwei Teile unterteilt. eine für das Training und eine für die Funktionsbewertung. Die letzten beiden Teile sind viel näher als die ersten. Ich frage nach # 2, was normalerweise zu einem besseren Verständnis von # 3 führt. (Wenn dies nicht die Interpretierbarkeit ist, was soll ich dann denken?)

Logistische Regression ist aus Sicht der Interpretierbarkeit eine der am einfachsten zu interpretierenden. Warum hat diese Instanz den Schwellenwert überschritten? Weil diese Instanz dieses besondere positive Merkmal hatte und einen größeren Koeffizienten im Modell hat. Es ist so offensichtlich!

Ein neuronales Netzwerk ist das klassische Beispiel für ein Modell, das schwer zu interpretieren ist. Was bedeuten all diese Koeffizienten bedeuten ? Sie alle summieren sich auf so komplizierte verrückte Weise, dass es schwer zu sagen ist, was ein bestimmter Koeffizient wirklich tut.

Aber mit all den tiefen neuronalen Netzen, die herauskommen, fühlt es sich an, als würden die Dinge klarer. Die DL-Modelle (zum Beispiel Vision) scheinen Dinge wie Kanten oder Orientierung in frühen Schichten zu erfassen, und in späteren Schichten scheinen einige Knoten tatsächlich semantisch zu sein (wie die sprichwörtliche "Großmutterzelle" ). Beispielsweise:

( aus 'Lernen über Deep Learning' )

Dies ist eine Grafik ( von vielen da draußen ), die von Hand für Präsentationen erstellt wurde, daher bin ich sehr skeptisch. Aber es ist ein Beweis dafür, dass jemand denkt, dass es so funktioniert.

Vielleicht gab es in der Vergangenheit nicht genug Schichten, um erkennbare Merkmale zu finden. Die Modelle waren erfolgreich, es war jedoch nicht einfach, bestimmte Modelle nachträglich zu analysieren.

Aber vielleicht ist die Grafik nur Wunschdenken. Vielleicht sind NNs wirklich unergründlich.

Aber auch die vielen Grafiken, deren Knoten mit Bildern beschriftet sind, überzeugen.

Entsprechen DL-Knoten wirklich Features?

neural-networks deep-learning interpretation

— Mitch
quelle

Ich sehe die Prämisse dieser Frage nicht. Dass neuronale Netze komplexer geworden sind und bessere Vorhersagen liefern, macht sie nicht deutlicher. Das Gegenteil ist normalerweise der Fall: Komplexität / bessere Vorhersage <-> Einfachheit / bessere Interpretation.

— AdamO

@AdamO ist genau richtig. Aus diesem Grund sind Regressionsbäume (rekursive Partitionierung) nur interpretierbar, weil die Ergebnisse falsch sind . Sie sind falsch, weil sie volatil sind; Holen Sie sich eine neue Probe und der Baum kann beliebig unterschiedlich sein. Und einzelne Bäume sind in Bezug auf prädiktive Diskriminierung nicht wettbewerbsfähig. Sparsamkeit ist oft der Feind vorhersehbarer Diskriminierung. Und auf die ursprüngliche Frage im biomedizinischen Bereich waren AI / ML-Ergebnisse nicht interpretierbar.

— Frank Harrell

Siehe diesen Artikel KI-Forscher behaupten, dass maschinelles Lernen Alchemie ist sciencemag.org/news/2018/05/…

— Mike Hunter

Die kühne Frage im Text und die Frage in Ihrem Titel sind sehr unterschiedlich. Es sieht so aus, als würden alle Antworten, einschließlich meiner, die Frage im Titel ansprechen. Vielleicht könnten Sie die engere Frage zu Knoten und Features in einem eigenen Thread stellen? Aber bevor Sie das tun, denken Sie daran, dass Sie bereits mit einem Artikel verlinkt sind, der Ihre kühne Frage bejaht. Überlegen Sie sich also, was Sie genau in einer Antwort lernen möchten, bevor Sie fragen.

— Sycorax sagt Reinstate Monica

@Sycorax Der Link, den ich gerade hinzugefügt habe, bezieht sich auf einen Blog-Beitrag und nicht auf ein Papier. Ich bin daher sehr skeptisch gegenüber dieser positiven Sichtweise. Die Vielfalt der Interpretierbarkeit, die ich im Titel nach DL frage, ist meines Erachtens im Text fett gedruckt.

— Mitch

Antworten:

Die Interpretation tiefer Modelle ist immer noch eine Herausforderung.

In Ihrem Beitrag werden nur CNNs für Computer-Vision-Anwendungen erwähnt, aber (tiefe oder flache) Feed-Forward-Netzwerke und wiederkehrende Netzwerke sind weiterhin schwer zu verstehen.
Selbst bei CNNs mit offensichtlichen "Merkmaldetektor" -Strukturen, wie Kanten und Ausrichtung von Pixelfeldern, ist nicht ganz klar, wie diese Merkmale auf niedrigerer Ebene nach oben aggregiert werden oder was genau bei diesen Sichtmerkmalen vor sich geht werden in einer vollständig verbundenen Ebene zusammengefasst.
Widersprüchliche Beispiele zeigen, wie schwierig die Interpretation des Netzwerks ist. An einem gegnerischen Beispiel wurden geringfügige Änderungen vorgenommen, die jedoch zu einer dramatischen Verschiebung der vom Modell getroffenen Entscheidung führen. Im Zusammenhang mit der Bildklassifizierung kann ein geringes Rauschen, das einem Bild hinzugefügt wird, das Bild einer Eidechse so verändern, dass es als ein anderes Tier, wie eine (Art von) Hund, mit großer Sicherheit eingestuft wird.

Dies hängt mit der Interpretierbarkeit zusammen, da ein starker, unvorhersehbarer Zusammenhang zwischen der (geringen) Menge an Rauschen und der (großen) Verschiebung in der Klassifizierungsentscheidung besteht. Wenn man über die Funktionsweise dieser Netzwerke nachdenkt, ist dies sinnvoll: Berechnungen auf früheren Ebenen werden vorwärts weitergeleitet, so dass eine Reihe von Fehlern - kleine, unwichtige Fehler für einen Menschen - vergrößert und akkumuliert werden, wenn immer mehr Berechnungen unter Verwendung von ausgeführt werden "korrupte" Eingänge.

Andererseits zeigt die Existenz von widersprüchlichen Beispielen, dass die Interpretation eines Knotens als ein bestimmtes Merkmal oder eine bestimmte Klasse schwierig ist, da die Tatsache, dass der Knoten aktiviert ist, möglicherweise wenig mit dem tatsächlichen Inhalt des Originalbilds zu tun hat Diese Beziehung ist im Hinblick auf das ursprüngliche Bild nicht wirklich vorhersehbar. In den folgenden Beispielbildern werden jedoch keine Menschen über den Inhalt der Bilder getäuscht: Sie würden die Fahnenstange für einen Hund nicht verwechseln. Wie können wir diese Entscheidungen zusammen interpretieren (ein kleines Rauschmuster "verwandelt" eine Eidechse in einen Hund oder einen Fahnenmast in einen Hund) oder in kleinere Teile (mehrere Feature-Detektoren reagieren empfindlicher auf das Rauschmuster als auf das tatsächliche Bild)? Inhalt)?

HAAM ist eine vielversprechende neue Methode zur Erzeugung von konträren Bildern unter Verwendung harmonischer Funktionen. ("Harmonic Adversarial Attack Method" von Wen Heng, Shuchang Zhou und Tingting Jiang.) Mit dieser Methode erzeugte Bilder können zur Emulation von Licht- / Schatteneffekten verwendet werden und sind für Menschen im Allgemeinen noch schwieriger zu erkennen, wenn sie verändert wurden.

Sehen Sie sich als Beispiel dieses Bild an, das aus " Universal Adversarial Perturbations " von Seyed-Mohsen Moosavi-Dezfooli, Alhussein Fawzi, Omar Fawzi und Pascal Frossard stammt. Ich habe dieses Bild gewählt, nur weil es eines der ersten gegnerischen Bilder war, auf die ich gestoßen bin. Dieses Bild stellt fest, dass ein bestimmtes Rauschmuster einen merkwürdigen Einfluss auf die Bildklassifizierungsentscheidung hat, insbesondere, dass Sie eine kleine Änderung an einem Eingabebild vornehmen und den Klassifizierer glauben lassen können, das Ergebnis sei ein Hund. Beachten Sie, dass das zugrunde liegende Originalbild immer noch offensichtlich ist: In allen Fällen würde ein Mensch nicht durcheinander gebracht, wenn er annimmt, dass es sich bei den Nicht-Hundebildern um Hunde handelt.

Hier ist ein zweites Beispiel aus einem eher kanonischen Artikel , " EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES " von Ian J. Goodfellow, Jonathon Shlens und Christian Szegedy. Das hinzugefügte Rauschen ist im resultierenden Bild nicht zu unterscheiden, doch das Ergebnis wird mit großer Sicherheit als falsch eingestuft, als Gibbon anstelle eines Pandas. Zumindest in diesem Fall gibt es zumindest eine vorübergehende Ähnlichkeit zwischen den beiden Klassen, da Gibbons und Pandas im weitesten Sinne zumindest biologisch und ästhetisch einigermaßen ähnlich sind.

Das dritte Beispiel wird aus „genommen verallgemeinerbar Adversarial Beispielen Erkennung Basierend auf Bi-Modell Entscheidung Mismatch “ von João Monteiro, Zahid Akhtar und Tiago H. Falk. Es wird festgestellt, dass das Geräuschmuster für einen Menschen nicht unterscheidbar sein kann, den Klassifikator jedoch immer noch verwirren kann.

Als Referenz ist ein Schlammwelpe ein dunkel gefärbtes Tier mit vier Gliedmaßen und einem Schwanz, daher hat es nicht wirklich viel Ähnlichkeit mit einem Goldfisch.

Ich habe gerade diese Zeitung gefunden. Christian Szegedy, Wojciech Zaremba, Ilja Sutskever, Joan Bruna, Dumitru Erhan, Ian Goodfellow, Rob Fergus. " Faszinierende Eigenschaften neuronaler Netze ". Das Abstract enthält dieses faszinierende Zitat:

Erstens stellen wir fest, dass es nach verschiedenen Methoden der Einheitenanalyse keinen Unterschied zwischen einzelnen Einheiten auf hoher Ebene und zufälligen linearen Kombinationen von Einheiten auf hoher Ebene gibt. Dies legt nahe, dass es eher der Raum als die einzelnen Einheiten ist, der die semantische Information in den hohen Schichten neuronaler Netze enthält.

Anstatt auf den höheren Ebenen "Merkmalsdetektoren" zu haben, stellen die Knoten lediglich Koordinaten in einem Merkmalsraum dar, den das Netzwerk zum Modellieren der Daten verwendet.

— Sycorax sagt Reinstate Monica
quelle

Gute Argumente. Beachten Sie jedoch, dass es selbst in den einfachsten Modellen (Logistik, Entscheidungsbäume) unklar ist, warum ein bestimmter Koeffizient / Schwellenwert so ist, wie er ist (aber das ist nicht die Interpretierbarkeit, nach der ich gefragt habe). Gibt es gute kontroverse Studien / Beispiele für Sprache / RNNs / LSTMs?

— Mitch

Ich möchte auch darauf hinweisen, dass selbst einfache Modelle wie die logistische Regression anfällig für gegnerische Angriffe sind. Tatsächlich haben Goodfellow et. al. weist darauf hin, dass es flache Modelle sind, die solchen Angriffen nicht widerstehen können. Dennoch behaupten wir, die logistische Regression interpretieren zu können.

— Shimao

Gute Antwort, bis auf Punkt 3, der aus zwei Gründen streitig ist. 1) Es ist sehr selten der Fall, dass ein gegnerisches Bild "für einen Menschen nicht von einem unveränderten Bild zu unterscheiden" ist, es sei denn, dieser Mensch weist schwerwiegende visuelle Beeinträchtigungen auf. Fast immer merkt man, dass dem Bild ein Rauschmuster hinzugefügt wurde, insbesondere im Hintergrund, das ästhetisch dem sogenannten JPEG-Rauschen ähnelt (nur optisch: Die tatsächlichen statistischen Eigenschaften der Störung sind unterschiedlich). Was überrascht, ist nicht, dass der Klassifikator unsicher ist, ob es sich um eine echte Katze handelt, anstatt beispielsweise um eine korrupte 1 /

— DeltaIV

2 / Bild, aber das ist fast sicher, dass es ein Bus ist. 2) Wie hängen kontroverse Beispiele mit der Interpretierbarkeit zusammen? Lineare Modelle, verallgemeinerte lineare Modelle und auch Entscheidungsbäume sind anfällig für widersprüchliche Beispiele. Es ist tatsächlich einfacher , ein kontroverses Beispiel zu finden, das die logistische Regression täuscht, als eines, das ResNet täuscht. Ungeachtet dessen betrachten wir (G) LM normalerweise als interpretierbares Modell, daher würde ich die Existenz widersprüchlicher Beispiele nicht mit der Interpretierbarkeit eines Modells in Verbindung bringen.

— DeltaIV

@ DeltaIV der Punkt ist nicht, dass Sie das Rauschen nicht bemerken können. Jedes zu stark herabgesetzte JPEG hat Rauschen. Der Punkt ist, dass das Geräusch manipuliert werden kann, um das DNN dazu zu bringen, verrückte Dinge zu tun, Dinge, die für einen menschlichen Beobachter keinen Sinn ergeben, selbst wenn das Geräusch selbst gesehen werden kann.

— Hong Ooi

Ebenen werden nicht so sauber auf immer abstraktere Features abgebildet, wie wir möchten. Eine gute Möglichkeit, dies zu erkennen, ist der Vergleich zweier sehr beliebter Architekturen.

VGG16 besteht aus vielen übereinander gestapelten Faltungsschichten mit gelegentlicher Pooling-Schicht - eine sehr traditionelle Architektur.

Seitdem haben die Leute Restarchitekturen entworfen, bei denen jede Schicht nicht nur mit der vorherigen Schicht, sondern auch mit einer (oder möglicherweise mehreren) Schichten weiter unten im Modell verbunden ist. ResNet war einer der Ersten, der dies tat. Je nachdem, welche Variante Sie verwenden, verfügt es über rund 100 Schichten.

Während VGG16 und ähnliche Netzwerke Layer aufweisen, die mehr oder weniger interpretierbar sind - Lernen von Funktionen höherer und höherer Ebenen, tun dies ResNets nicht. Stattdessen haben die Leute vorgeschlagen, dass sie entweder die Funktionen weiter verfeinern, um sie genauer zu machen, oder dass sie nur ein paar flache Netzwerke in Verkleidung sind , von denen keines den "traditionellen Ansichten" darüber entspricht, was Deep Models lernen.

Während ResNet und ähnliche Architekturen VGG bei der Bildklassifizierung und Objekterkennung deutlich übertreffen, scheint es einige Anwendungen zu geben, für die die einfache Bottom-Up-Feature-Hierarchie von VGG sehr wichtig ist. Sehen Sie hier für eine gute Diskussion.

Angesichts der Tatsache, dass modernere Architekturen nicht mehr in das Bild zu passen scheinen, kann man nicht sagen, dass CNNs noch interpretierbar sind.

— shimao
quelle

Vermutlich wäre die völlig unbearbeitete / nicht entworfene Topologie eines DL-Netzwerks eine große zufällige, teilweise geordnete Menge, die Sensoren eingibt und die gewünschte Funktion ausgibt. Die Knoten hier wären sehr undurchschaubar. Bedeutet das aber nicht, dass eine Topologie umso deutlicher interpretierbar ist, je besser sie konzipiert ist?

— Mitch

@Mitch Einige neuere Architekturen wie Densenet scheinen sich langsam der Grenze zu nähern, in der jede Ebene mit jeder anderen verbunden ist - ähnlich wie bei Ihrem "nicht entworfenen Netzwerk". Aber sicherlich haben ResNet und Densenet ein ausgefeilteres Design als VGG16, aber man könnte sagen, dass sie weniger interpretierbar sind - nein, ich denke nicht, dass mehr Design mehr Interpretierbarkeit bedeutet. Mögliche, sparsamere Verbindungen bedeuten mehr Interpretierbarkeit.

— Shimao

Das Thema meiner Dissertation war es, die Black-Box-Eigenschaften von neuronalen Netzen, insbesondere Feed-Forward-Netzen, mit einer oder zwei versteckten Schichten aufzudecken.

Ich werde mich der Herausforderung stellen und allen erklären, was die Gewichtungen und Verzerrungsbezeichnungen in einem einschichtigen neuronalen Feed-Forward-Netzwerk bedeuten. Es werden zwei verschiedene Perspektiven angesprochen: eine parametrische und eine probabilistische.

Im Folgenden gehe ich davon aus, dass alle Eingabewerte, die für jedes Eingabe-Neuron bereitgestellt werden, durch lineare Skalierung ( ) auf das Intervall (0,1) normiert wurden , wobei die beiden Die Koeffizienten und werden pro Eingangsvariable so gewählt, dass . Ich unterscheide zwischen Variablen mit reellen Zahlen und Variablen mit Aufzählungen (mit einer booleschen Variablen als Aufzählungsvariable für Sonderfälle): $x_{input}=\alpha \cdot x + \beta$ $\alpha$ $\beta$ $x_{input} \in (0,1)$

Eine reelle Variable wird nach linearer Skalierung als Dezimalzahl zwischen und . $0$ $1$
Eine aufgezählte Variable, nämlich die Wochentage (Montag, Dienstag usw.), werden durch Eingabeknoten dargestellt, wobei die Anzahl der möglichen Ergebnisse darstellt, dh für die Anzahl der Tage in einer Woche. $v$ $v$ $7$

Eine solche Darstellung Ihrer Eingabedaten ist erforderlich, um die (absolute) Größe der Gewichte in der Eingabeebene interpretieren zu können.

Parametrische Bedeutung:

Je größer der absolute Wert des Gewichts zwischen einem Eingangsneuron und einem versteckten Neuron ist, desto wichtiger ist diese Variable für das "Feuern" dieses bestimmten versteckten Knotens. Gewichte nahe bei zeigen an, dass ein Eingangswert ist so gut wie irelevant. $0$
Das Gewicht von einem versteckten Knoten zu einem Ausgangsknoten gibt an, dass die gewichtete Verstärkung der Eingangsvariablen, die im absoluten Sinne am stärksten von diesem versteckten Neuron verstärkt werden, den jeweiligen Ausgangsknoten fördert oder dämpft. Das Vorzeichen des Gewichts zeigt Beförderung (positiv) oder Hemmung (negativ) an.
Der dritte Teil, der in den Parametern des neuronalen Netzes nicht explizit dargestellt ist, ist die multivariate Verteilung der Eingangsvariablen. Das heißt, wie oft kommt es vor, dass der Wert für den Eingabeknoten bereitgestellt wird - mit dem wirklich hohen Gewicht für den versteckten Knoten ? $1$ $3$ $2$
Ein Bias-Term ist nur eine Übersetzungskonstante, die den Durchschnitt eines versteckten (oder Ausgabe-) Neurons verschiebt. Es verhält sich wie die oben dargestellte Verschiebung . $\beta$

Rückschluss auf ein Ausgangsneuron : Welche versteckten Neuronen haben bei ihren Verbindungen zu den Ausgangsneuronen die höchsten absoluten Gewichtswerte? Wie oft nähert sich die Aktivierung jedes versteckten Knotens (unter der Annahme von Sigmoid-Aktivierungsfunktionen). Ich spreche von Frequenzen, gemessen über den Trainingssatz. Um genau zu sein: Was ist die Frequenz , mit der die verborgenen Knoten und , mit großen Gewichten an das Eingangsvariablen und , dass diese verborgenen Knoten und sind nah an $1$ $i$ $l$ $t$ $s$ $i$ $l$ $1$ ? Jeder versteckte Knoten gibt per Definition einen gewichteten Durchschnitt seiner Eingabewerte weiter. Welche Eingangsvariablen fördert - oder hemmt jeder versteckte Knoten in erster Linie? Auch das erklärt viel, den absoluten Gewichtsunterschied zwischen den Gewichten, die vom versteckten Knoten zu den beiden Ausgangsknoten auffächern und . $\Delta_{j,k}=\mid w_{i,j} - w_{i,k}\mid$ $i$ $j$ $k$

Die wichtigeren versteckten Knoten sind für einen Ausgangsknoten (der über die Trainingsmenge in Frequenzen spricht), welche 'Eingangsgewichte mal Eingangsfrequenzen' sind am wichtigsten? Dann nähern wir uns der Bedeutung der Parameter der vorwärtsgerichteten neuronalen Netze.

Probabilistische Interpretation:

Die Wahrscheinlichkeitsperspektive bedeutet, ein klassifiziertes neuronales Netz als einen Bayes-Klassifikator (den optimalen Klassifikator mit der theoretisch definierten niedrigsten Fehlerrate) zu betrachten. Welche Eingangsgrößen beeinflussen das Ergebnis des neuronalen Netzes - und wie oft? Betrachten Sie dies als probabilistische Sensitivitätsanalyse. Wie oft kann das Variieren einer Eingangsvariablen zu einer anderen Klassifizierung führen? Wie oft Eingabeneuron haben potenziellen Einfluss auf der Klassifizierungen Ergebnis wird am ehesten, was bedeutet , dass das entsprechende Ausgang Neuron den höchsten Wert erreicht? $x_{input}$

Einzelfallmuster

Wenn ein reell nummeriertes Eingangsneuron geändert wird, ändert sich wahrscheinlich die Klassifikation. Wir sagen, dass diese Variable potenziellen Einfluss hat . Beim Variieren des Ergebnisses einer aufgezählten Variablen (Ändern des Wochentags von Montag auf Dienstag oder einen anderen Wochentag) ) und die wahrscheinlichsten Ergebnisänderungen, dann hat diese aufgezählte Variable potenziellen Einfluss auf das Ergebnis der Klassifizierung. $x_{input}$ $[1,0,0,0,0,0,0]$ $[0,1,0,0,0,0,0]$

Wenn wir nun die Wahrscheinlichkeit dieser Änderung berücksichtigen, dann sprechen wir den erwarteten Einfluss aus . Wie groß ist die Wahrscheinlichkeit, eine sich ändernde Eingabevariable , sodass sich das Ergebnis im Eingabefall ändert, wenn man die Werte aller anderen Eingaben berücksichtigt ? Der erwartete Einfluss bezieht sich auf den erwarteten Wert von , nämlich . Hier ist der Vektor aller Eingabewerte mit Ausnahme von input . Beachten Sie, dass eine aufgezählte Variable durch eine Reihe von Eingabe-Neuronen dargestellt wird. Diese möglichen Ergebnisse werden hier als eine Variable angesehen. $x_{input}$ $x_{input}$ $E(x_{input} \mid {\bf x}_{-input})$ ${\bf x}_{-input}$ $x_{input}$

Deep Leaning - und die Bedeutung der NN-Parameter

Neuronale Netze haben im letzten Jahrzehnt bemerkenswerte Fortschritte gemacht. Die 1989 von LeCunn eingeführten faltungsbedingten neuronalen Netze haben sich im Hinblick auf die Bilderkennung als sehr leistungsfähig erwiesen. Es wurde berichtet, dass sie die meisten anderen computergestützten Erkennungsansätze übertreffen können.

Interessante emergente Eigenschaften treten auf, wenn Faltungs-Neuronale Netze für die Objekterkennung trainiert werden. Die erste Schicht verborgener Knoten stellt Merkmaldetektoren auf niedriger Ebene dar, ähnlich den Skalenraumoperatoren T. Lindeberg, Merkmalerkennung mit automatischer Skalenauswahl , 1998 . Diese Scale-Space-Operatoren erkennen

Linien,
Ecken,
T-Kreuzungen

und einige andere grundlegende Bildfunktionen.

Noch interessanter ist die Tatsache, dass sich gezeigt hat, dass Wahrnehmungsneuronen im Gehirn von Säugetieren dieser Arbeitsweise in den ersten Schritten der (biologischen) Bildverarbeitung ähneln. Mit CNNs nähert sich die Wissenschaft dem an, was die menschliche Wahrnehmung so phänomenal macht. Daher lohnt es sich, diese Forschungsrichtung weiter zu verfolgen.

— Match Maker EE
quelle

Das ist interessant - hört sich nicht so an, als würde es bei korrelierten Merkmalen viel Interpretierbarkeit bieten?

— khol

Der erwartete Wert E (.) Ist auch bekannt als der Durchschnitt der bedingten Verteilung, x_input bei gegebener x_-Eingabe, aller anderen Variablen. Korrelationen fließen daher vollständig in dieses erwartete Einflusskonzept ein. Es ist zu beachten, dass die Wahrscheinlichkeitsunabhängigkeit eine umfassendere Definition als "Korrelation" aufweist - letztere wird hauptsächlich für verteilte Gauß-Daten definiert.

— Match Maker EE

Nett. Ist diese Art der Verallgemeinerung einer Interpretation der logistischen Regression auf eine Reihe gestapelter Regressionsmodelle, von denen eines in das nächste übergeht?

— Mitch

Eine Teilmenge versteckter Knoten kann als logisches ODER für ein Ausgangsneuron oder eher als logisches UND fungieren. ODER tritt auf, wenn eine Aktivierung eines versteckten Knotens ausreicht, um zu bewirken, dass das Ausgangsneuron nahe 1 wird. UND tritt auf, wenn nur eine Summe von Aktivierungen eines versteckten Knotens dazu führen kann, dass die Aktivierung des Ausgangsknotens nahe 1 wird. AND ', das hängt vom trainierten Gewichtsvektor des' fan in 'in den Ausgangsknoten ab.

— Match Maker EE