Künstliche neuronale Netze (ANNs) sind eine breite Klasse von Rechenmodellen, die lose auf biologischen neuronalen Netzen basieren. Sie umfassen Feedforward-NNs (einschließlich "tiefer" NNs), Faltungs-NNs, wiederkehrende NNs usw.
Ich beginne meine Doktorandenreise und das ultimative Ziel, das ich mir gesetzt habe, ist die Entwicklung von ANNs, die die Umgebung überwachen, in der sie arbeiten, und ihre Architektur dynamisch an das jeweilige Problem anpassen. Die offensichtliche Implikation ist die Zeitlichkeit der Daten: Wenn der Datensatz nicht kontinuierlich ist und …
Ich trainiere ein künstliches neuronales Netzwerk (Backpropagation, Feed-Forward) mit nicht normal verteilten Daten. Neben dem quadratischen Mittelwertfehler wird in der Literatur häufig der Pearson-Korrelationskoeffizient zur Bewertung der Qualität des trainierten Netzes vorgeschlagen. Aber ist der Pearson-Korrelationskoeffizient angemessen, wenn die Trainingsdaten nicht normal verteilt sind? Wäre es nicht vernünftiger, ein rangbasiertes …
Ein Variations-Autoencoder (VAE) bietet eine Möglichkeit, die Wahrscheinlichkeitsverteilung lernen die einen Eingang mit seiner latenten Darstellung Beziehung setzt . Insbesondere ordnet der Codierer einen Eingang einer Verteilung auf . Ein typischer Encoder gibt Parameter , die die Gaußsche Verteilung . Diese Verteilung wird als Näherung für .p ( x , …
Der Titel sagt schon alles - wie viele trainierbare Parameter gibt es in einer GRU-Schicht? Diese Art von Frage taucht häufig auf, wenn versucht wird, Modelle verschiedener RNN-Schichttypen, wie z. B. LSTM-Einheiten (Long Short Term Memory), mit GRU hinsichtlich der Leistung pro Parameter zu vergleichen. Da eine größere Anzahl trainierbarer …
In diesem https://cs231n.github.io/neural-networks-case-study/ wird erwähnt, warum "der Softmax-Klassifizierer jedes Element von ff so interpretiert, dass es die (nicht normalisierten) Protokollwahrscheinlichkeiten der drei Klassen enthält". Ich verstehe, warum es nicht normalisiert ist, aber nicht, warum es protokolliert wird. Was bedeutet eine Log-Wahrscheinlichkeit? Warum nicht einfach nicht normalisierte Wahrscheinlichkeiten sagen?
Ich verwende TensorFlows vorab trainiertes Modell des Convolutional Neural Network. https://github.com/tensorflow/models/blob/master/slim/nets/resnet_v2.py#L130 Ich habe folgenden Satz gefunden: Für dichte Vorhersageaufgaben empfehlen wir jedoch, Eingaben mit räumlichen Dimensionen zu verwenden, die ein Vielfaches von 32 plus 1 sind, z. B. [321, 321]. Weiß jemand, was dichte Vorhersage in dieser Literatur ist?
Ich habe versucht, ein Programm zum Trainieren neuronaler Netze auf meinem Computer zu erstellen. Für das betreffende Netzwerk habe ich mich für die Funktion Cross Entropy Error entschieden: E=−∑jtjlnojE=−∑jtjlnojE = -\sum_jt_j\ln o_j Wobei die für das Neuron ist und die Ausgabe dieses Neurons ist, das versucht, vorherzusagen . j o …
Ich habe Daten beschriftet, die aus 10000 positiven und 50000 negativen Beispielen bestehen, was insgesamt 60000 Beispiele ergibt. Offensichtlich sind diese Daten unausgewogen. Nehmen wir nun an, ich möchte meinen Validierungssatz erstellen und dazu 10% meiner Daten verwenden. Meine Frage lautet wie folgt: Sollte ich sicherstellen, dass mein Validierungssatz AUCH …
Das Papier über GANs besagt, dass der Diskriminator den folgenden Gradienten zum Trainieren verwendet: ∇θd1m∑i = 1m[ logD ( x( i )) +log( 1 - D ( G ( z( i )) ) ) ]∇θd1m∑i=1m[logD(x(i))+log(1−D(G(z(i))))]\nabla _{\theta_d} \frac{1}{m}\sum^{m}_{i=1} [\log{D(x^{(i)})} + \log{(1-D(G(z^{(i)})))}] Die Werte werden abgetastet, durch den Generator geleitet, um Datenabtastwerte …
Es gibt so viele Regularisierungstechniken, dass es nicht praktisch ist, alle Kombinationen auszuprobieren: l1 / l2 max norm aussteigen frühes Anhalten ... Es scheint, dass die meisten Menschen mit einer Kombination aus Ausfall und frühem Abbruch zufrieden sind: Gibt es Fälle, in denen die Verwendung anderer Techniken sinnvoll ist? Wenn …
Bei der Anwendung von Dropout in künstlichen neuronalen Netzen muss die Tatsache kompensiert werden, dass zum Zeitpunkt des Trainings ein Teil der Neuronen deaktiviert wurde. Dazu gibt es zwei gemeinsame Strategien: Skalieren der Aktivierung zur Testzeit Umkehren des Aussetzers während der Trainingsphase Die beiden Strategien sind in den folgenden Folien …
Ich lese dieses Papier: Skype-Übersetzer, bei dem CD-DNN-HMMs (kontextabhängige tiefe neuronale Netze mit Hidden-Markov-Modellen) verwendet werden. Ich kann die Idee des Projekts und die Architektur, die sie entworfen haben, verstehen, aber ich verstehe nicht, was die Senone sind . Ich habe nach einer Definition gesucht, aber nichts gefunden - Wir …
Wie wirkt sich die Auswahl von Wortvektoren aus (Eingabewortmatrix) im Vergleich zu Wortvektoren aus W ' (Ausgabewortmatrix) in den CBOW- und Sprunggrammmodellen von word2vec auf die Qualität der resultierenden Wortvektoren aus?W.WWW′W′W' CBOW: Skip-Gramm:
Ich möchte ein neuronales Netzwerk verwenden, um finanzielle Zeitreihen vorherzusagen. Ich komme aus einem IT-Umfeld und habe einige Kenntnisse über neuronale Netze. Ich habe darüber gelesen: TDNN RNN Ich habe nach R-Paketen für sie gesucht und nur eines für RNN gefunden, das RSNNS-Paket, das Elman- und Jordan-Implementierungen enthält, die RNN …
Ich habe es mit einem Problem zu tun, das mit dem Finden des Gradienten der Kreuzentropieverlustfunktion für den Parameter θθ\theta wobei: CE(θ)=−∑iyi∗log(y^i)CE(θ)=−∑iyi∗log(y^i)CE(\theta) = -\sum\nolimits_{i}{y_i*log({\hat{y}_{i}})} Wobei y i = s o f t m ein x ( θ i ) und θ i ist ein Vektoreingang.y^i=softmax(θi)y^i=softmax(θi)\hat{y}_{i} = softmax(\theta_i)θiθi\theta_i Auch yyy ist …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.