Als «deep-learning» getaggte Fragen

Ein Bereich des maschinellen Lernens, der sich mit dem Lernen hierarchischer Darstellungen der Daten befasst, hauptsächlich mit tiefen neuronalen Netzen.

1
Wie vermeide ich "katastrophales Vergessen"?
Ich habe diesen Artikel von Michael Honiball (Schöpfer von Spacy) gelesen, in dem er über das Problem des „katastrophalen Vergessens“ spricht . Hier sagt er, wenn wir ein vorab trainiertes Modell optimieren möchten, um ein neues Etikett hinzuzufügen oder bestimmte Fehler zu korrigieren, kann dies das Problem des „katastrophalen Vergessens“ …



1
Patch-Wise-Training und vollständig Faltungs-Training in einem vollständig Faltungs-Neuronalen Netzwerk
In der Arbeit über ein vollständig faltungsorientiertes neuronales Netzwerk erwähnen die Autoren sowohl das Patch-weise Training als auch das vollständig faltungsorientierte Training. Mein Verständnis für den Aufbau des Trainingssets ist wie folgt: M*MExtrahieren Sie bei einem gegebenen Bild Unterbilder mit N*N, wobei ( N<M). Die ausgewählten Teilbilder überlappen sich untereinander. …

3
Berechnung der Aktualisierung des Akteursgradienten im DDPG-Algorithmus (Deep Deterministic Policy Gradient)
Diese Frage bezieht sich auf das Deepmind-Papier zu DDPG: https://arxiv.org/pdf/1509.02971v5.pdf . Die meisten (alle?) Implementierungen des DDPG-Algorithmus, die ich gesehen habe, berechnen die Gradientenaktualisierung für das Akteursnetzwerk durch ∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))\nabla(J)=\nabla_{\mu(s|\theta)}(Q(s,\mu(s|\theta))\nabla_{\theta}(\mu(s|\theta)), wo θθ\theta stellt die Parameter des Akteursnetzwerks dar, μμ\mu repräsentiert das Akteursnetzwerk, QQQ repräsentiert das Kritikernetzwerk und sssrepräsentiert die Zustandseingabe. Ich …


2
Ist es richtig, die Ausgabe des neuronalen Netzwerks als sein Vertrauen in die Vorhersage der Ausgabe zu betrachten?
Angenommen, ich habe ein einzelnes Ausgangssigmoid (tanh), das einen Ausgangsbereich im Bereich von [-1, +1] erzeugt. Ist es richtig, diese Ausgabe als Vertrauensmaß für die Vorhersage der Ausgabe zu betrachten? Der Ausgabewert würde zwischen -1 und +1 liegen, aber obwohl ich eine hohe Genauigkeit habe, sehe ich, dass die Werte …

1
Multi-Agent-Schauspieler-Kritiker MADDPG-Algorithmus Verwirrung
Ich versuche, das Papier von openAI mit dem Titel Multi-Agent Actor-Critic für gemischte kooperativ-wettbewerbsorientierte Umgebungen zu verstehen In dem Papier erwähnen sie, dass sie das Problem der Nichtstationarität der Umwelt bekämpfen, indem sie Stichproben aus Teilrichtlinien ziehen: Ich bin verwirrt über: (1) wie Subsampling das Problem der Nichtstationarität lösen würde …

2
Ist eine Feature-Transformation (Power, Log, Box-Cox) für Deep Learning erforderlich?
Ich habe gelesen, dass es vorteilhaft ist, bestimmte Transformationen allgemeiner Funktionen auf Datensätze anzuwenden, bevor sie auf Modelle für maschinelles Lernen treffen. Diese basieren auf der Verteilung der Funktionen des Datensatzes. Beispiel: Anwenden von Protokolltransformationen auf verzerrte normalverteilte Features. Einige Beispiele hier . Soweit ich weiß, ist "Automatic Feature Engineering" …


1
Gibt es derzeit einen Konsens über den Wert des Informationsengpass-Prinzips für das Verständnis von Deep Learning?
Im Jahr 2015 veröffentlichten Tishby und Zaslavsky ein bekanntes Papier, in dem behauptet wurde, dass das sogenannte Prinzip des Informationsengpasses verwendet werden könnte, um das Verhalten tiefer neuronaler Netze zu verstehen. In einem neueren Artikel (April 2017) erweitern Schwartz-Ziv und Tishby diese Behauptungen und visualisieren insbesondere einige der Ergebnisse. Später …


3
Gefälle Abstieg von
Ich lese Why Momentum Really Works , einen Beitrag aus dem neuen Destillationsjournal. Ich werde die Hauptgleichungen umschreiben, die zu dem Teil führen, der mich verwirrt. Der Beitrag beschreibt die Intuition genauer. Der Gradientenabstiegsalgorithmus ist durch den folgenden iterativen Prozess gegeben: wobei der Wert der Iteration , die Lernrate und …

1
Warum werden Deep-Believe-Netzwerke (DBN) selten verwendet?
Ich habe dieses Buch über tiefes Lernen von Ian und Aron gelesen. In der Beschreibung von DBN heißt es, DBN sei in Ungnade gefallen und werde selten verwendet. Deep-Believe-Netzwerke haben gezeigt, dass Deep-Architekturen erfolgreich sein können, indem sie kernelisierte Support-Vektor-Maschinen im MNIST-Datensatz übertreffen (Hinton et al., 2006). Heutzutage sind Deep-Believe-Netzwerke …

2
Zweck der L2-Normalisierung für das Triplett-Netzwerk
Triplett-basiertes Fernstudium zur Gesichtserkennung scheint sehr effektiv zu sein. Ich bin neugierig auf einen bestimmten Aspekt des Papiers. Um eine Einbettung für ein Gesicht zu finden, normalisieren die Autoren die verborgenen Einheiten mithilfe der L2-Normalisierung, wodurch die Darstellung auf einer Hypersphäre eingeschränkt wird. Warum ist das hilfreich oder notwendig?

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.