Als «deep-learning» getaggte Fragen

Ein neues Gebiet der maschinellen Lernforschung, das sich mit den Technologien befasst, die zum Lernen hierarchischer Darstellungen von Daten verwendet werden, hauptsächlich mit tiefen neuronalen Netzen (dh Netzen mit zwei oder mehr verborgenen Schichten), aber auch mit einer Art probabilistischer grafischer Modelle.


6
Wann wird GRU über LSTM verwendet?
Der Hauptunterschied zwischen einer GRU und einem LSTM besteht darin, dass eine GRU zwei Gatter hat ( Reset- und Update- Gatter), während eine LSTM drei Gatter hat (nämlich Eingabe- , Ausgabe- und Vergessen- Gatter). Warum setzen wir GRU ein, wenn wir über das LSTM-Modell eine deutlich bessere Kontrolle über das …

8
Lernrate wählen
Ich arbeite derzeit an der Implementierung von Stochastic Gradient Descent SGDfür neuronale Netze unter Verwendung von Backpropagation, und obwohl ich den Zweck verstehe, habe ich einige Fragen zur Auswahl von Werten für die Lernrate. Bezieht sich die Lernrate auf die Form des Fehlergradienten, da sie die Abstiegsrate vorgibt? Wenn ja, …



5
Zeitreihenvorhersage mit ARIMA gegen LSTM
Das Problem, mit dem ich mich beschäftige, ist die Vorhersage von Zeitreihenwerten. Ich betrachte jeweils eine Zeitreihe und möchte anhand von beispielsweise 15% der Eingabedaten deren zukünftige Werte vorhersagen. Bisher bin ich auf zwei Modelle gestoßen: LSTM (Long Short Term Memory; eine Klasse wiederkehrender neuronaler Netze) ARIMA Ich habe beide …

2
Wann wird die normale Initialisierung (He oder Glorot) über die gleichmäßige Initialisierung angewendet? Und welche Auswirkungen hat die Batch-Normalisierung?
Ich wusste, dass das Residual Network (ResNet) die normale Initialisierung populär machte. In ResNet wird die normale He-Initialisierung verwendet , während die erste Ebene die einheitliche He-Initialisierung verwendet. Ich habe das ResNet-Papier und das "Delving Deep into Rectifiers" -Papier (He-Initialisierungspapier) durchgesehen, aber ich habe keine Erwähnung für normales Init vs. …


3
Anzahl der Parameter in einem LSTM-Modell
Wie viele Parameter hat ein einzelner gestapelter LSTM? Die Anzahl der Parameter legt eine Untergrenze für die Anzahl der erforderlichen Trainingsbeispiele fest und beeinflusst auch die Trainingszeit. Daher ist es für Trainingsmodelle mit LSTMs hilfreich, die Anzahl der Parameter zu kennen.


4
Warum ist die Mini-Batch-Größe besser als ein einzelner „Batch“ mit allen Trainingsdaten?
Ich habe oft gelesen, dass bei Deep-Learning-Modellen die übliche Praxis darin besteht, Mini-Batches (im Allgemeinen kleine, 32/64) über mehrere Trainingsepochen anzuwenden. Ich kann den Grund dafür nicht wirklich ergründen. Wenn ich mich nicht irre, gibt die Stapelgröße die Anzahl der Trainingsinstanzen an, die das Modell während einer Trainingsiteration gesehen hat. …




6
Erklärung der entropieübergreifenden Verluste
Angenommen, ich erstelle eine NN für die Klassifizierung. Die letzte Schicht ist eine dichte Schicht mit Softmax-Aktivierung. Ich habe fünf verschiedene Klassen zu klassifizieren. Angenommen, für ein einzelnes Trainingsbeispiel true labelist das, [1 0 0 0 0]während die Vorhersagen sind [0.1 0.5 0.1 0.1 0.2]. Wie würde ich den Kreuzentropieverlust …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.