Ein Bereich des maschinellen Lernens, der sich mit dem Lernen hierarchischer Darstellungen der Daten befasst, hauptsächlich mit tiefen neuronalen Netzen.
Ich habe diesen Artikel von Michael Honiball (Schöpfer von Spacy) gelesen, in dem er über das Problem des „katastrophalen Vergessens“ spricht . Hier sagt er, wenn wir ein vorab trainiertes Modell optimieren möchten, um ein neues Etikett hinzuzufügen oder bestimmte Fehler zu korrigieren, kann dies das Problem des „katastrophalen Vergessens“ …
Ich habe das Standard- / berühmte word2vec- Modell gelesen und gemäß den Standardnotizen für cs224n ändert sich die Zielfunktion von: J.o r i gi n a l= -∑j = 0 , j ≠ m2 mu⊤c - m + jvc+ 2 m l o g(∑k = 1| V.|e x p (u⊤kvc) …
Ich habe mein Modell auf meinem lokalen Computer trainiert, wo der Speicher nur für 10 Beispiele pro Stapel ausreicht. Als ich jedoch mein Modell auf AWS migrierte und eine größere GPU (Tesla K80) verwendete, konnte ich eine Stapelgröße von 32 aufnehmen. Die AWS-Modelle zeigten jedoch alle eine sehr, sehr schlechte …
In der Arbeit über ein vollständig faltungsorientiertes neuronales Netzwerk erwähnen die Autoren sowohl das Patch-weise Training als auch das vollständig faltungsorientierte Training. Mein Verständnis für den Aufbau des Trainingssets ist wie folgt: M*MExtrahieren Sie bei einem gegebenen Bild Unterbilder mit N*N, wobei ( N<M). Die ausgewählten Teilbilder überlappen sich untereinander. …
Diese Frage bezieht sich auf das Deepmind-Papier zu DDPG: https://arxiv.org/pdf/1509.02971v5.pdf . Die meisten (alle?) Implementierungen des DDPG-Algorithmus, die ich gesehen habe, berechnen die Gradientenaktualisierung für das Akteursnetzwerk durch ∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))\nabla(J)=\nabla_{\mu(s|\theta)}(Q(s,\mu(s|\theta))\nabla_{\theta}(\mu(s|\theta)), wo θθ\theta stellt die Parameter des Akteursnetzwerks dar, μμ\mu repräsentiert das Akteursnetzwerk, QQQ repräsentiert das Kritikernetzwerk und sssrepräsentiert die Zustandseingabe. Ich …
Ich habe irgendwo festgestellt, dass der Testsatz nicht als Validierungssatz verwendet werden darf. Warum? Der Validierungssatz wird angewendet, wenn die Modellparameter festgelegt sind und das Lernen nur durch Backprop auf dem Trainingsstapel erfolgt. Warum kann ich Testdaten nicht als Validierungsdaten verwenden?
Angenommen, ich habe ein einzelnes Ausgangssigmoid (tanh), das einen Ausgangsbereich im Bereich von [-1, +1] erzeugt. Ist es richtig, diese Ausgabe als Vertrauensmaß für die Vorhersage der Ausgabe zu betrachten? Der Ausgabewert würde zwischen -1 und +1 liegen, aber obwohl ich eine hohe Genauigkeit habe, sehe ich, dass die Werte …
Ich versuche, das Papier von openAI mit dem Titel Multi-Agent Actor-Critic für gemischte kooperativ-wettbewerbsorientierte Umgebungen zu verstehen In dem Papier erwähnen sie, dass sie das Problem der Nichtstationarität der Umwelt bekämpfen, indem sie Stichproben aus Teilrichtlinien ziehen: Ich bin verwirrt über: (1) wie Subsampling das Problem der Nichtstationarität lösen würde …
Ich habe gelesen, dass es vorteilhaft ist, bestimmte Transformationen allgemeiner Funktionen auf Datensätze anzuwenden, bevor sie auf Modelle für maschinelles Lernen treffen. Diese basieren auf der Verteilung der Funktionen des Datensatzes. Beispiel: Anwenden von Protokolltransformationen auf verzerrte normalverteilte Features. Einige Beispiele hier . Soweit ich weiß, ist "Automatic Feature Engineering" …
In den letzten Jahren hat das Gebiet der Objekterkennung nach der Popularisierung des Deep-Learning-Paradigmas einen großen Durchbruch erlebt. Ansätze wie YOLO, SSD oder FasterRCNN halten den Stand der Technik in der allgemeinen Aufgabe der Objekterkennung [ 1 ]. In dem spezifischen Anwendungsszenario, in dem wir nur ein Referenzbild für das …
Im Jahr 2015 veröffentlichten Tishby und Zaslavsky ein bekanntes Papier, in dem behauptet wurde, dass das sogenannte Prinzip des Informationsengpasses verwendet werden könnte, um das Verhalten tiefer neuronaler Netze zu verstehen. In einem neueren Artikel (April 2017) erweitern Schwartz-Ziv und Tishby diese Behauptungen und visualisieren insbesondere einige der Ergebnisse. Später …
Angenommen, ich habe einen Text wie den folgenden, der normalerweise 2/3 Sätze und 100-200 Zeichen enthält. Johny kaufte 50 Dollar Milch von Walmart. Jetzt hat er nur noch 20 Dollar übrig. Ich möchte extrahieren Name der Person: Johny Verbrauchte: 50 Dollar Geld übrig: 20 Dollar. Verbrachte wo: Walmart. Ich habe …
Ich lese Why Momentum Really Works , einen Beitrag aus dem neuen Destillationsjournal. Ich werde die Hauptgleichungen umschreiben, die zu dem Teil führen, der mich verwirrt. Der Beitrag beschreibt die Intuition genauer. Der Gradientenabstiegsalgorithmus ist durch den folgenden iterativen Prozess gegeben: wobei der Wert der Iteration , die Lernrate und …
Ich habe dieses Buch über tiefes Lernen von Ian und Aron gelesen. In der Beschreibung von DBN heißt es, DBN sei in Ungnade gefallen und werde selten verwendet. Deep-Believe-Netzwerke haben gezeigt, dass Deep-Architekturen erfolgreich sein können, indem sie kernelisierte Support-Vektor-Maschinen im MNIST-Datensatz übertreffen (Hinton et al., 2006). Heutzutage sind Deep-Believe-Netzwerke …
Triplett-basiertes Fernstudium zur Gesichtserkennung scheint sehr effektiv zu sein. Ich bin neugierig auf einen bestimmten Aspekt des Papiers. Um eine Einbettung für ein Gesicht zu finden, normalisieren die Autoren die verborgenen Einheiten mithilfe der L2-Normalisierung, wodurch die Darstellung auf einer Hypersphäre eingeschränkt wird. Warum ist das hilfreich oder notwendig?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.