Als «softmax» getaggte Fragen

Normalisierung der Exponentialfunktion, die einen numerischen Vektor so transformiert, dass alle seine Einträge zwischen 0 und 1 liegen und zusammen 1 ergeben. Sie wird häufig als letzte Schicht eines neuronalen Netzwerks verwendet, das eine Klassifizierungsaufgabe ausführt.


6
Rückausbreitung mit Softmax / Cross Entropy
Ich versuche zu verstehen, wie Backpropagation für eine Softmax / Cross-Entropy-Ausgabeebene funktioniert. Die Kreuzentropiefehlerfunktion ist E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j mit und als Ziel bzw. Ausgabe bei Neuron . Die Summe befindet sich über jedem Neuron in der Ausgabeschicht. selbst ist das Ergebnis der Softmax-Funktion:tttooojjjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} Wieder ist die Summe …

1
Cross-Entropy oder Log Likelihood in der Ausgabeebene
Ich habe diese Seite gelesen: http://neuralnetworksanddeeplearning.com/chap3.html und es hieß, dass Sigmoid-Ausgabeschicht mit Kreuzentropie mit Softmax-Ausgabeschicht mit Log-Wahrscheinlichkeit ziemlich ähnlich ist. Was passiert, wenn ich Sigmoid mit logarithmischer Wahrscheinlichkeit oder Softmax mit Kreuzentropie in der Ausgabeebene verwende? ist es gut Weil ich sehe, dass es nur einen kleinen Unterschied in der …

4
Warum ist die Softmax-Ausgabe kein gutes Unsicherheitsmaß für Deep Learning-Modelle?
Ich arbeite seit einiger Zeit mit Convolutional Neural Networks (CNNs), hauptsächlich mit Bilddaten für die semantische Segmentierung / Instanzsegmentierung. Ich habe mir den Softmax der Netzwerkausgabe oft als "Heatmap" vorgestellt, um zu sehen, wie hoch die Aktivierungen pro Pixel für eine bestimmte Klasse sind. Ich habe niedrige Aktivierungen als "unsicher" …

2
Warum wird die Softmax-Funktion verwendet, um Wahrscheinlichkeiten zu berechnen, obwohl wir jeden Wert durch die Summe des Vektors teilen können?
Durch Anwenden der Softmax-Funktion auf einen Vektor werden "Wahrscheinlichkeiten" und Werte zwischen 000 und . 111 Wir können aber auch jeden Wert durch die Summe der Vektoren dividieren, wodurch Wahrscheinlichkeiten und Werte zwischen000 und .111 Ich habe die Antwort hier gelesen , aber es heißt, dass der Grund darin liegt, …


1
Caret glmnet vs cv.glmnet
Es scheint eine Menge Verwirrung im Vergleich zwischen der Verwendung von glmnetinside caretzur Suche nach einem optimalen Lambda und der Verwendung cv.glmnetderselben Aufgabe zu geben. Viele Fragen wurden gestellt, zB: Klassifizierungsmodell train.glmnet vs. cv.glmnet? Was ist der richtige Weg, um glmnet mit caret zu verwenden? Quervalidierung von "glmnet" mit "caret" …


2
Unterschiedliche Definitionen der Kreuzentropieverlustfunktion
Ich habe mit dem Neuralnetworksanddeeplearning dot com Tutorial angefangen, etwas über neuronale Netze zu lernen. Insbesondere im 3. Kapitel gibt es einen Abschnitt über die Kreuzentropiefunktion und definiert den Kreuzentropieverlust als: C.= - 1n∑x∑j( yjlneinL.j+ ( 1 -yj)ln( 1 -aL.j) )C.=- -1n∑x∑j(yjln⁡einjL.+(1- -yj)ln⁡(1- -einjL.))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln …

2
Wie tief ist der Zusammenhang zwischen der Softmax-Funktion in ML und der Boltzmann-Verteilung in der Thermodynamik?
Die Softmax-Funktion, die üblicherweise in neuronalen Netzen verwendet wird, um reelle Zahlen in Wahrscheinlichkeiten umzuwandeln, ist dieselbe Funktion wie die Boltzmann-Verteilung, die Wahrscheinlichkeitsverteilung über Energien für ein Ensemble von Partikeln im thermischen Gleichgewicht bei einer gegebenen Temperatur T in der Thermodynamik. Ich kann einige klare heuristische Gründe erkennen, warum dies …

3
Nichtlinearität vor der endgültigen Softmax-Schicht in einem Faltungsnetzwerk
Ich studiere und versuche, Faltungs-Neuronale Netze zu implementieren, aber ich nehme an, diese Frage gilt für mehrschichtige Perzeptrone im Allgemeinen. Die Ausgangsneuronen in meinem Netzwerk stellen die Aktivierung jeder Klasse dar: Das aktivste Neuron entspricht der vorhergesagten Klasse für eine bestimmte Eingabe. Um die Cross-Entropie-Kosten für das Training zu berücksichtigen, …


1
Softmax-Überlauf [geschlossen]
Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen vor 2 Jahren . Während ich auf den nächsten Kurs von Andrew Ng auf Coursera warte, versuche ich, auf …
10 softmax  numerics 

3
Wie wende ich Softmax als Aktivierungsfunktion in mehrschichtigem Perceptron in Scikit-Learn an? [geschlossen]
Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie zum Thema gehört für Kreuz Validated. Geschlossen vor 10 Monaten . Ich muss die Softmax-Aktivierungsfunktion auf das mehrschichtige Perceptron in Scikit anwenden. In der Scikit- …

2
Multinomial Logistic Loss vs (Kreuzentropie vs quadratischer Fehler)
Ich beobachtete, dass Caffe (ein Deep-Learning-Framework) die Softmax-Verlustschicht SoftmaxWithLoss als Ausgabeschicht für die meisten Modellbeispiele verwendete . Soweit ich weiß, ist die Softmax-Verlustschicht die Kombination aus multinomialer logistischer Verlustschicht und Softmax-Schicht . Von Caffe sagten sie das Die Berechnung des Gradienten der Softmax-Verlustschicht ist numerisch stabiler Diese Erklärung ist jedoch …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.