Statistiken und Big Data neural-networks

2

Warum LSTM beim Informations-Latching schlechter abschneidet als das Vanilla-Netzwerk für wiederkehrende Neuronen

Ich möchte besser verstehen, warum sich LSTM über einen längeren Zeitraum an Informationen erinnern kann als Vanille / einfaches wiederkehrendes neuronales Netzwerk (SRNN), indem ich ein Experiment aus dem Artikel Lernen von Langzeitabhängigkeiten mit Gradientenabstieg von Bengio et al. 1994 . Siehe Abb. 1. und 2 auf diesem Papier. Die …

8 neural-networks lstm tensorflow rnn keras

2

Neuronales Netz: Warum kann ich nicht überanpassen?

Ich habe ein neuronales Netzwerk (Feed-Forward Single Layer), mit dem ich versuche, eine umweltbezogene Variable aus zwei Finanzvariablen vorherzusagen (Regression). Ich benutze die "Zug" -Funktion aus dem Caret-Paket. Ich benutze den nnet()Algorithmus im Caret-Paket. Ich habe zwei kontinuierliche Prädiktoren und 420 Datenpunkte. Zum theoretischen Verständnis versuche ich, mein Modell absichtlich …

8 r neural-networks overfitting caret

2

Epochen in Keras Bedeutung? [geschlossen]

Geschlossen. Diese Frage ist nicht zum Thema . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so dass es beim Thema für Kreuz Validated. Geschlossen vor 2 Jahren . Was bedeutet das? Epoch 1/300 7200/7200 [==============================] - 0s - loss: 3.3616 - acc: 0.3707 …

8 neural-networks tensorflow keras

2

Verständnis des frühen Stopps in neuronalen Netzen und seiner Auswirkungen bei der Verwendung der Kreuzvalidierung

Ich bin ein bisschen beunruhigt und verwirrt über die Idee, wie die Technik des frühen Stoppens definiert wird. Wenn Sie sich Wikipedia ansehen , ist es wie folgt definiert: Teilen Sie die Trainingsdaten in einen Trainingssatz und einen Validierungssatz auf, z. B. im Verhältnis 2 zu 1. Trainieren Sie nur …

8 machine-learning neural-networks cross-validation hyperparameter

2

In welchem Verhältnis steht die Zielfunktion der negativen Stichprobe (NS) zur ursprünglichen Zielfunktion in word2vec?

Ich habe das Standard- / berühmte word2vec- Modell gelesen und gemäß den Standardnotizen für cs224n ändert sich die Zielfunktion von: J.o r i gi n a l= -∑j = 0 , j ≠ m2 mu⊤c - m + jvc+ 2 m l o g(∑k = 1| V.|e x p (u⊤kvc) …

8 neural-networks deep-learning natural-language word2vec word-embeddings

2

Derivat von Softmax in Bezug auf Gewichte

Ich bin neu im Deep Learning und versuche, die Ableitung der folgenden Funktion in Bezug auf die Matrix zu berechnen :ww\mathbf w p(a)=ew⊤axΣdew⊤dxp(a)=ewa⊤xΣdewd⊤xp(a) = \frac{e^{w_a^\top x}}{\Sigma_{d} e^{w_d^\top x}} Unter Verwendung der Quotientenregel erhalte ich: ∂p(a)∂w=xew⊤axΣdew⊤dx−ew⊤axΣdxew⊤dx[Σdew⊤dx]2=0∂p(a)∂w=xewa⊤xΣdewd⊤x−ewa⊤xΣdxewd⊤x[Σdewd⊤x]2=0\frac{\partial p(a)}{\partial w} = \frac{xe^{w_a^\top x}\Sigma_{d} e^{w_d^\top x} - e^{w_a^\top x}\Sigma_{d} xe^{w_d^\top x}}{[\Sigma_{d} e^{w_d^\top x}]^2} = …

8 machine-learning self-study neural-networks derivative softmax

3

Berechnung der Aktualisierung des Akteursgradienten im DDPG-Algorithmus (Deep Deterministic Policy Gradient)

Diese Frage bezieht sich auf das Deepmind-Papier zu DDPG: https://arxiv.org/pdf/1509.02971v5.pdf . Die meisten (alle?) Implementierungen des DDPG-Algorithmus, die ich gesehen habe, berechnen die Gradientenaktualisierung für das Akteursnetzwerk durch ∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))\nabla(J)=\nabla_{\mu(s|\theta)}(Q(s,\mu(s|\theta))\nabla_{\theta}(\mu(s|\theta)), wo θθ\theta stellt die Parameter des Akteursnetzwerks dar, μμ\mu repräsentiert das Akteursnetzwerk, QQQ repräsentiert das Kritikernetzwerk und sssrepräsentiert die Zustandseingabe. Ich …

8 machine-learning neural-networks deep-learning reinforcement-learning

2

Warum kann ich den Testsatz nicht als Validierungssatz verwenden?

Ich habe irgendwo festgestellt, dass der Testsatz nicht als Validierungssatz verwendet werden darf. Warum? Der Validierungssatz wird angewendet, wenn die Modellparameter festgelegt sind und das Lernen nur durch Backprop auf dem Trainingsstapel erfolgt. Warum kann ich Testdaten nicht als Validierungsdaten verwenden?

8 machine-learning neural-networks cross-validation deep-learning

1

Neuronale Netze gegen Strukturgleichungsmodellierung Was ist der Unterschied?

Ich studiere zum ersten Mal über künstliche neuronale Netze (ANN) und bin beeindruckt, wie ähnlich die Konzepte neuronaler Netze der Modellierung von Strukturgleichungen (SEM) zu sein scheinen. Zum Beispiel, Eingabeknoten in ANN erinnern mich an Manifestvariablen in SEM Versteckte Knoten in ANN erinnern an latente Variablen in SEM Jedes Feature …

8 machine-learning neural-networks sem

2

Wie kann Unsicherheit in die Vorhersage eines neuronalen Netzwerks übertragen werden?

Ich habe Eingaben , die Unsicherheiten gekannt haben . Ich benutze sie, um die Ausgaben in einem trainierten neuronalen Netzwerk vorherzusagen . Wie kann ich 1 Unsicherheiten bei meinen Vorhersagen erhalten?x1…xnx1…xnx_1\ldots x_n1σ1σ1\sigmaϵ1…ϵnϵ1…ϵn\epsilon_1 \ldots \epsilon_ny1…ymy1…ymy_1 \ldots y_mσσ\sigma Meine Idee ist es, jeden Eingang zufällig mit normalem Rauschen mit dem Mittelwert 0 …

8 machine-learning neural-networks predictive-models prediction error-propagation

2

Ist es richtig, die Ausgabe des neuronalen Netzwerks als sein Vertrauen in die Vorhersage der Ausgabe zu betrachten?

Angenommen, ich habe ein einzelnes Ausgangssigmoid (tanh), das einen Ausgangsbereich im Bereich von [-1, +1] erzeugt. Ist es richtig, diese Ausgabe als Vertrauensmaß für die Vorhersage der Ausgabe zu betrachten? Der Ausgabewert würde zwischen -1 und +1 liegen, aber obwohl ich eine hohe Genauigkeit habe, sehe ich, dass die Werte …

8 machine-learning classification neural-networks deep-learning isotonic

2

Warum ist der Autoencoder-Decoder normalerweise die umgekehrte Architektur als Encoder?

Jede Autoencoder-Architektur, die ich gesehen habe, hat eine ähnliche Architektur, hauptsächlich, dass der Decoder genau das Gegenteil des Encoders ist. Wenn das Ziel des Autoencoders das Lernen von niedrigdimensionalen Merkmalen ist, warum ist der Decoder nicht einfach? Ein Beispiel wäre eine lineare Transformation wobei eine Beobachtung durch die Merkmalsmatrix (dh …

7 neural-networks dimensionality-reduction autoencoders

4

Was sind die aktuellen Faltungs-Neuronalen Netze auf dem neuesten Stand der Technik?

Ich bin daran interessiert zu verstehen, welche neuronale Netzwerkarchitektur derzeit auf dem neuesten Stand der Technik (manchmal mit "SOTA" abgekürzt) in Bezug auf Standardbildklassifizierungsaufgaben wie MNIST, STLN-10 und CIFAR ist. Dies ist eine Herausforderung, da häufig neue Ergebnisse veröffentlicht werden und es schwierig sein kann, Schritt zu halten. Gibt es …

7 neural-networks references conv-neural-network

3

Wann müssen Daten normalisiert werden, wenn zwei Datensätze aus derselben Verteilung verwendet werden?

Angenommen, Sie haben zwei Datensätze D1 und D2. Beide werden von derselben zugrunde liegenden Verteilung X abgetastet. Ich möchte sie zum Trainieren eines neuronalen Netzwerks verwenden. Die Features sind alle vorzeichenlose Ganzzahlen im Bereich [0; 2 ^ 64]. Aufgrund der Tatsache, dass die Merkmale sehr unterschiedliche Maßstäbe haben, habe ich …

7 neural-networks dataset normalization z-score

2

Bewahren Autoencoder Entfernungen auf?

Nach meinem Verständnis werden Autoencoder verwendet, um eine kompakte Darstellung von Eingabefunktionen zu finden, die die wesentlichen zugrunde liegenden Informationen enthält. Gibt es eine Beziehung zwischen den L2-Abständen im ursprünglichen Eingaberaum und dem reduzierten (kompakten) Raum? Wenn nicht, kann ich das Netzwerk so trainieren, dass die kompakte Darstellung nach der …

7 neural-networks dimensionality-reduction distance autoencoders

Als «neural-networks» getaggte Fragen