Statistiken und Big Data neural-networks

3

Softmax-Schicht in einem neuronalen Netzwerk

Ich versuche, einem mit Backpropagation trainierten neuronalen Netzwerk eine Softmax-Ebene hinzuzufügen, also versuche ich, den Gradienten zu berechnen. Der Softmax-Ausgang ist wobeijdie Ausgangsneuronenzahl ist.hj= ezj∑ ezichhj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}jjj Wenn ich es ableite, bekomme ich ∂hj∂zj= hj( 1 - hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) Ähnlich wie bei der logistischen Regression. Dies ist jedoch falsch, da …

43 neural-networks

2

Was ist maxout im neuronalen Netz?

Kann jemand erklären, was maxout-Einheiten in einem neuronalen Netzwerk tun? Wie arbeiten sie und wie unterscheiden sie sich von herkömmlichen Einheiten? Ich habe versucht, das 2013 erschienene "Maxout Network" -Papier von Goodfellow et al. Zu lesen . (aus der Gruppe von Professor Yoshua Bengio), aber ich verstehe es nicht ganz.

42 machine-learning neural-networks

1

Neuronale Netze: Gewichtsänderungsimpuls und Gewichtsabfall

Das Momentum wird verwendet, um die Schwankungen der Gewichtsänderungen während aufeinanderfolgender Iterationen zu verringern:αα\alpha wobeiE(w)ist die Fehlerfunktionw- der Vektor der Gewichte,η- Lernrate.Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E(w)E(w)E({\bf w})ww{\bf w}ηη\eta Gewichtsabnahme bestraft die Gewichtsveränderungen:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i Die Frage ist, ob es sinnvoll …

41 neural-networks optimization regularization gradient-descent

4

Warum Sigmoid-Funktion anstelle von irgendetwas anderem?

Warum ist die De-facto-Standard-Sigmoid-Funktion in (nicht-tiefen) neuronalen Netzwerken und logistischen Regressionen so beliebt?11+e−x11+e−x\frac{1}{1+e^{-x}} Warum verwenden wir nicht viele der anderen ableitbaren Funktionen mit einer schnelleren Rechenzeit oder einem langsameren Zerfall (so dass der Gradient weniger verschwindet)? In Wikipedia gibt es nur wenige Beispiele für Sigmoidfunktionen . Einer meiner Favoriten mit …

40 logistic neural-networks least-squares

3

Was sind die Unterschiede zwischen Hidden-Markov-Modellen und neuronalen Netzen?

Ich mache mich in Statistiken nur nass, also tut es mir leid, wenn diese Frage keinen Sinn ergibt. Ich habe Markov-Modelle verwendet, um versteckte Zustände (unfaire Casinos, Würfelwürfe usw.) und neuronale Netze vorherzusagen und die Klicks der Benutzer auf eine Suchmaschine zu untersuchen. Beide hatten verborgene Zustände, die wir mithilfe …

40 data-mining algorithms neural-networks markov-process

4

Wie löst die geradlinige Aktivierungsfunktion das Problem des verschwindenden Gradienten in neuronalen Netzen?

Ich fand eine gleichgerichtete Lineareinheit (ReLU), die an mehreren Stellen als Lösung für das Problem des verschwindenden Gradienten für neuronale Netze gelobt wurde . Das heißt, man verwendet max (0, x) als Aktivierungsfunktion. Wenn die Aktivierung positiv ist, ist dies offensichtlich besser als beispielsweise die Sigma-Aktivierungsfunktion, da ihre Herleitung immer …

40 machine-learning neural-networks deep-learning gradient-descent

7

Datennormalisierung und -standardisierung in neuronalen Netzen

Ich versuche, das Ergebnis eines komplexen Systems mithilfe neuronaler Netze (ANNs) vorherzusagen. Die (abhängigen) Ergebniswerte liegen zwischen 0 und 10.000. Die verschiedenen Eingangsvariablen haben unterschiedliche Bereiche. Alle Variablen haben ungefähr normale Verteilungen. Ich betrachte verschiedene Möglichkeiten, um die Daten vor dem Training zu skalieren. Eine Möglichkeit besteht darin, die Eingangsvariablen …

40 machine-learning neural-networks multidimensional-scaling

2

ImageNet: Was ist die Top-1- und Top-5-Fehlerrate?

In ImageNet-Klassifizierungspapieren sind die Fehlerquoten Top 1 und Top 5 wichtige Maßeinheiten für den Erfolg einiger Lösungen. Doch wie hoch sind diese Fehlerquoten? In der ImageNet-Klassifikation mit Deep Convolutional Neural Networks von Krizhevsky et al. Jede Lösung, die auf einer einzelnen CNN basiert (Seite 7), hat keine Top-5-Fehlerraten, während die …

38 classification neural-networks error measurement-error image-processing

5

Wie visualisiere / verstehe ich, was ein neuronales Netzwerk macht?

Neuronale Netze werden aufgrund ihrer komplexen Struktur häufig als "Black Boxes" behandelt. Dies ist nicht ideal, da es oft von Vorteil ist, einen intuitiven Überblick über die interne Funktionsweise eines Modells zu haben. Was sind Methoden, um die Funktionsweise eines trainierten neuronalen Netzwerks zu visualisieren? Wie können wir alternativ leicht …

37 data-visualization neural-networks

7

Warum löst die Regularisierung nicht den Datenhunger von Deep Neural Nets?

Ein Problem, das ich im Zusammenhang mit neuronalen Netzen im Allgemeinen und Deep Neural Networks im Besonderen häufig gesehen habe, ist, dass sie "datenhungrig" sind - das heißt, dass sie nur dann eine gute Leistung erbringen, wenn wir einen großen Datenbestand haben mit dem man das netzwerk trainiert. Meines Wissens …

37 neural-networks deep-learning regularization

4

Was soll ich tun, wenn sich mein neuronales Netzwerk nicht gut verallgemeinert?

Ich trainiere ein neuronales Netzwerk und der Trainingsverlust nimmt ab, der Validierungsverlust jedoch nicht, oder er sinkt viel weniger als erwartet, basierend auf Referenzen oder Experimenten mit sehr ähnlichen Architekturen und Daten. Wie kann ich das beheben? Was die Frage betrifft Was soll ich tun, wenn mein neuronales Netzwerk nicht …

37 neural-networks deep-learning

4

Unterschied zwischen "Kernel" und "Filter" in CNN

Was ist der Unterschied zwischen den Begriffen "Kernel" und "Filter" im Kontext von Faltungsnetzwerken?

37 neural-networks terminology deep-learning conv-neural-network

3

Maschinelles Lernen: Soll ich für binäre Vorhersagen eine kategoriale Kreuzentropie oder einen binären Kreuzentropieverlust verwenden?

Zunächst wurde mir klar, dass ich, wenn ich binäre Vorhersagen durchführen muss, mindestens zwei Klassen durch Ausführen einer One-Hot-Codierung erstellen muss. Ist das richtig? Gilt die binäre Kreuzentropie jedoch nur für Vorhersagen mit nur einer Klasse? Wenn ich einen kategorialen Cross-Entropy-Verlust verwenden würde, der normalerweise in den meisten Bibliotheken (wie …

36 machine-learning neural-networks loss-functions tensorflow cross-entropy

5

Kostenfunktion des neuronalen Netzes ist nicht konvex?

Die Kostenfunktion des neuronalen Netzes ist , und es wird behauptet, dass es nicht konvex ist . Ich verstehe nicht ganz, warum das so ist, da es meiner Ansicht nach der Kostenfunktion der logistischen Regression ziemlich ähnlich ist, oder?J( W, B )J(W,b)J(W,b) Wenn es nicht konvex ist, ist also die …

36 neural-networks loss-functions

4

Wie verhindert LSTM das Problem des Fluchtgradienten?

LSTM wurde speziell erfunden, um das Problem des verschwindenden Gradienten zu vermeiden. Dies soll mit dem Constant Error Carousel (CEC) geschehen, das in der folgenden Abbildung (von Greff et al. ) Der Schleife um die Zelle entspricht . (Quelle: deeplearning4j.org ) Und ich verstehe, dass dieser Teil als eine Art …

35 neural-networks lstm

Als «neural-networks» getaggte Fragen