Sensitivitätsanalyse in tiefen neuronalen Netzen

Nach einer bereits beantworteten Frage ( Auslesen der Wichtigkeit von Einschicht-Feed-Forward- Netzen) suche ich nach Rückschlüssen auf die Relevanz von Eingaben in neuronalen Netzen.

Angesichts eines tiefen Netzes, in dem die Rekonstruktion der Eingangsbedeutung durch Rückwärtsdurchlaufen der Schichten vom interessierenden Ausgangsknoten schwierig oder zeitaufwendig sein kann, habe ich mich gefragt, ob es einen theoretischen Rahmen für die Durchführung einer Empfindlichkeitsanalyse für ein neuronales Netz gibt, und im Grunde genommen eine geringfügige Änderung von a Geben Sie den gewünschten Knoten ein und überlegen Sie, wie er sich ändert.

Gibt es eine kanonische Methode zur Durchführung einer Sensitivitätsanalyse in neuronalen Netzen?

Ich würde es wirklich begrüßen, wenn Python-Code dazu vorhanden wäre

— Tommaso Guerrini
quelle

Die von Ihnen vorgeschlagene Empfindlichkeitsanalyse entspricht der Untersuchung der partiellen Ableitungen der Ausgänge in Bezug auf die Eingänge. Angenommen, der Ausgabevektor ist gegeben durch $y \in \mathbb{R}^m$ , wobei der Eingangsvektor ist und die Funktion ist, die das Netzwerk implementiert. DerJacobider Ausgänge für die Eingänge ist: $y= f(x)$ $x \in \mathbb{R}^d$ $f$

J_{i j} (x) = \frac{\partial}{\partial x_{j}} f_{i} (x)

$J_{ij}(x) = \frac{\partial}{\partial x_j} f_i(x)$

Der Jacobi gibt die lokale Änderungsrate jedes Ausgangs in Bezug auf jeden Eingang an, und gibt an, wie sich als Reaktion auf infinitesimale Störungen verhält. Wenn wir mit der Eingabe und dem einen infinitesimalen Wert hinzufügen $f$ $x$ $\Delta$ $j$ ten Eingang , erwarten wir, dass sich der te Ausgang um erhöht . $i$ $\Delta J_{ij}(x)$

Wenn eine große Größe hat, bedeutet dies, dass der Ausganggegenüber dem Eingangin der Nähe vonempfindlich ist. Weil $J_{ij}(x)$ $i$ $j$ $x$ $f$ ist im Allgemeinen nichtlinear, dieser Begriff der Empfindlichkeit hängt von der Eingabe ab; es kann in einigen Regionen groß und in anderen nahe null sein. Wenn Sie eine Art zusammenfassendes Maß dafür haben möchten, wie stark die Ausgaben von den Eingaben abhängen, müssen Sie über mehrere Eingabewerte aggregieren. Sie können beispielsweise den über alle Eingaben in der Trainingsmenge gemittelten absoluten Wert des Jacobian verwenden (der als Ersatz für den erwarteten Wert für die zugrunde liegende Verteilung der Eingaben dient). Natürlich werden bei dieser Art der Zusammenfassung Informationen verworfen, was unter bestimmten Umständen irreführend sein kann.

Sie können die Kettenregel verwenden, um einen Ausdruck für die Jacobi-Funktion abzuleiten, ähnlich wie Sie den Gradienten der Verlustfunktion für die mit backprop verwendeten Parameter ableiten würden. Sie können es auch mit automatischer Differenzierung berechnen, indem Sie eine Bibliothek wie Theano, TensorFlow usw. verwenden. Es gibt nicht viel Grund, eine endliche Differenzierung durchzuführen (dh die Störung tatsächlich zu simulieren und die Änderung der Ausgabe zu messen), es sei denn, die von Ihrem Netzwerk implementierte Funktion ist nicht differenzierbar ( in diesem Fall existiert der Jakobianer nicht).

Ein paar Vorsichtsmaßnahmen: Wenn die Eingänge unterschiedliche Einheiten / Skalen haben, haben die Empfindlichkeiten auch unterschiedliche Einheiten / Skalen und können nicht direkt verglichen werden. Eine mögliche Lösung ist die Standardisierung / Skalierung der Eingänge. Es ist auch wichtig zu bedenken, dass diese Art der Analyse uns über das Modell selbst informiert, jedoch nicht unbedingt über die zugrunde liegende Verteilung, die die Daten generiert hat. Wenn beispielsweise zwei Eingaben korreliert sind, verwendet das Modell möglicherweise die erste, jedoch nicht die zweite. In diesem Fall würden wir feststellen, dass die Empfindlichkeit für den ersten Eingang hoch und für den zweiten niedrig ist, sollten aber nicht den Schluss ziehen, dass der erste Eingang für die Vorhersage des Ausgangs im Allgemeinen von Natur aus wichtiger ist.

Dieser Artikel sollte von Interesse sein.

— user20160
quelle

tolle antwort und toller artikel! Wenn jemand an der Implementierung dieser Methode interessiert ist, finden Sie hier eine nette Implementierung der jacobianischen Berechnung: medium.com/unit8-machine-learning-publication/…

— pcko1