Ein Bereich des maschinellen Lernens, der sich mit dem Lernen hierarchischer Darstellungen der Daten befasst, hauptsächlich mit tiefen neuronalen Netzen.
Ich las die Arbeit Deep Residual Learning for Image Recognition und hatte Schwierigkeiten, mit 100% iger Sicherheit zu verstehen, was ein Restblock rechnerisch bedeutet. Beim Lesen ihrer Zeitung haben sie Abbildung 2: Dies zeigt, was ein Restblock sein soll. Ist die Berechnung eines Restblocks einfach dieselbe wie: y =σ( W.2σ( …
Wie codiere ich Datum und Uhrzeit eines Ereignisses für ein neuronales Netzwerk? Ich habe keine fortlaufende Zeitreihe, sondern einige Ereignisse mit Datum und Uhrzeit, und ich analysiere eine Art von Interesse. Dieses Interesse unterscheidet sich zwischen Morgen und Abend und zwischen Wochentagen und zwischen Sommer und Winter sowie vor Weihnachten …
Ich verstehe, dass bei einer Reihe von unabhängigen Beobachtungen der Maximum Likelihood Estimator (oder äquivalent der MAP mit flachem / einheitlichem Prior), der die Parameter \ mathbf {θ} identifiziert , die die Modellverteilung p_ {model} \ erzeugen links (\, \ cdot \ ,; \ mathbf {θ} \ rechts) , die …
Die Topologie des Google Inception-Modells finden Sie hier: Google Inception Netowrk Mir ist aufgefallen, dass dieses Modell 3 Softmax-Schichten enthält (Nr. 154, Nr. 152, Nr. 145), von denen 2 eine Art frühes Entkommen dieses Modells darstellen. Soweit ich weiß, ist die Softmax-Ebene für die endgültige Ausgabe vorgesehen. Warum gibt es …
Soweit ich weiß, werden sowohl Autoencoder als auch t-SNE zur nichtlinearen Dimensionsreduktion verwendet. Was sind die Unterschiede zwischen ihnen und warum sollte ich einen gegen einen anderen verwenden?
Ich möchte Deep Learning verwenden, um eine binäre Erkennung von Gesichtern / Nicht-Gesichtern zu trainieren. Welchen Verlust soll ich verwenden ? Ich denke, es ist SigmoidCrossEntropyLoss oder Hinge-loss . Stimmt das, aber ich frage mich auch, ob ich Softmax verwenden soll, aber nur mit zwei Klassen?
In Goodfellow's (2016) Buch über tiefes Lernen sprach er über die Gleichwertigkeit eines frühen Stopps der L2-Regularisierung ( https://www.deeplearningbook.org/contents/regularization.html Seite 247). Die quadratische Approximation der Kostenfunktion jjj ist gegeben durch: J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) wobei HHH die hessische Matrix ist (Gl. 7.33). Fehlt dies mittelfristig? Taylorentwicklung sollte sein: f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2
Vor kurzem bin ich auf "wahrscheinlichkeitsfreie" Methoden aufmerksam geworden, über die in der Literatur geredet wird. Mir ist jedoch nicht klar, was es bedeutet, dass eine Inferenz- oder Optimierungsmethode wahrscheinlichkeitsfrei ist . Beim maschinellen Lernen besteht das Ziel normalerweise darin, die Wahrscheinlichkeit zu maximieren, dass einige Parameter zu einer Funktion …
Folgendes habe ich in Ian Goodfellows Buch Deep Learning gelesen . Im Zusammenhang mit neuronalen Netzen "wird die L2-Parameternormstrafe allgemein als Gewichtsabfall bezeichnet. Diese Regularisierungsstrategie bringt die Gewichte näher an den Ursprung [...]. Allgemeiner könnten wir die Parameter so regulieren, dass sie nahe an einem bestimmten Punkt liegen im Raum …
Beim maschinellen Lernen (für Regressionsprobleme) sehe ich häufig, dass der mittlere quadratische Fehler (MSE) oder der mittlere absolute Fehler (MAE) als Fehlerfunktion zum Minimieren verwendet werden (plus Regularisierungsterm). Ich frage mich, ob es Situationen gibt, in denen die Verwendung des Korrelationskoeffizienten angemessener wäre. Wenn eine solche Situation vorliegt, dann: In …
Kürzlich haben wir die Entstehung des verbleibenden neuronalen Netzes gesehen, bei dem jede Schicht aus einem Rechenmodul cicic_i und einer Verknüpfungsverbindung besteht, die die Eingabe in die Schicht beibehält, wie die Ausgabe der i-ten Schicht zeigt: yi+1=ci+yiyi+1=ci+yi y_{i+1} = c_i + y_i Das Netzwerk ermöglicht das Extrahieren von Restmerkmalen und …
Ich habe Probleme beim Verständnis des Sprunggrammmodells des Word2Vec-Algorithmus. In fortlaufenden Wortsäcken ist leicht zu erkennen, wie die Kontextwörter in das neuronale Netzwerk "passen" können, da Sie sie im Grunde nach dem Multiplizieren jeder der One-Hot-Codierungsdarstellungen mit der Eingabematrix W mitteln. Im Fall von Skip-Gram erhalten Sie den Eingangswortvektor jedoch …
Angenommen, ich möchte einen Klassifizierer lernen, der einen Vektor von Zahlen als Eingabe verwendet und eine Klassenbezeichnung als Ausgabe gibt. Meine Trainingsdaten bestehen aus einer großen Anzahl von Eingabe-Ausgabe-Paaren. Wenn ich jedoch einige neue Daten teste, sind diese Daten normalerweise nur teilweise vollständig. Wenn der Eingabevektor beispielsweise die Länge 100 …
Ich habe Mühe, die mathematische Verbindung zwischen einem neuronalen Netzwerk und einem grafischen Modell herzustellen. In grafischen Modellen ist die Idee einfach: Die Wahrscheinlichkeitsverteilung wird gemäß den Cliquen in der Grafik faktorisiert, wobei die Potentiale normalerweise aus der Exponentialfamilie stammen. Gibt es eine äquivalente Begründung für ein neuronales Netzwerk? Kann …
Ich habe mir die CS231N-Vorlesungen von Stanford angesehen und versuche, mich mit einigen Problemen in CNN-Architekturen zu befassen. Ich versuche zu verstehen, ob es einige allgemeine Richtlinien für die Auswahl der Faltungsfiltergröße und Dinge wie Schritte gibt oder ob dies eher eine Kunst als eine Wissenschaft ist. Ich verstehe, dass …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.