Kürzlich habe ich einen Artikel von Yann Dauphin et al. Identifizierung und Angriff auf das Sattelpunktproblem bei der hochdimensionalen nichtkonvexen Optimierung , bei der ein interessanter Abstiegsalgorithmus namens " Sattelfreies Newton" eingeführt wird , der genau auf die Optimierung des neuronalen Netzwerks zugeschnitten zu sein scheint und nicht daran zu …
Diese Frage hat hier bereits Antworten : Backpropagation-Algorithmus (2 Antworten) Geschlossen im letzten Monat . Was ist der Backpropagation-Algorithmus und wie funktioniert er?
Die objektive Funktion der Hauptkomponentenanalyse (PCA) ist die Minimierung des Rekonstruktionsfehlers in der L2-Norm (siehe Abschnitt 2.12 hier) . Eine andere Ansicht versucht, die Varianz bei der Projektion zu maximieren. Wir haben auch hier einen ausgezeichneten Beitrag: Was ist die objektive Funktion der PCA? ? ). Meine Frage ist, dass …
argminwL(w)=∑ni=1|yi−wTx|argminwL(w)=∑i=1n|yi−wTx| \underset{\textbf{w}}{\arg\min} L(w)=\sum_{i=1}^{n}|y_{i}-\textbf{w}^T\textbf{x}| min∑ni=1uimin∑i=1nui\min \sum_{i=1}^{n}u_{i} ui≥xTw−yii=1,…,nui≥xTw−yii=1,…,nu_i \geq \textbf{x}^T\textbf{w}- y_{i} \; i = 1,\ldots,n ui≥−(xTw−yi)i=1,…,nui≥−(xTw−yi)i=1,…,nu_i \geq -\left(\textbf{x}^T\textbf{w}-y_{i}\right) \; i = 1,\ldots,n Aber ich habe keine Ahnung, wie ich es Schritt für Schritt lösen soll, da ich LP-Neuling bin. Hast du irgendeine Idee? Danke im Voraus! BEARBEITEN: Hier ist der letzte Stand, …
TL; DR: Die lme4Optimierung scheint standardmäßig in Bezug auf die Anzahl der Modellparameter linear zu sein und ist viel langsamer als ein äquivalentes glmModell mit Dummy-Variablen für Gruppen. Kann ich irgendetwas tun, um es zu beschleunigen? Ich versuche, ein ziemlich großes hierarchisches Logit-Modell (~ 50.000 Zeilen, 100 Spalten, 50 Gruppen) …
Hier ist ein Keras-Codebeispiel, das es verwendet: from keras.constraints import max_norm model.add(Convolution2D(32, 3, 3, input_shape=(3, 32, 32), border_mode='same', activation='relu', kernel_constraint=max_norm(3)))
Ich versuche, die Hyperparameter des von mir implementierten Gaußschen Prozessregressionsalgorithmus abzustimmen. Ich möchte einfach die logarithmische Grenzwahrscheinlichkeit maximieren, die durch die Formel wobeiKdie Kovarianzmatrix mit den ElementenKij=k(xi,xj)=b-1exp(- istLog( y | X., Θ ) = - 12yT.K.- 1yy - 12Log( det ( K.) ) - n2Log( 2 π)Log(y|X.,θ)=- -12yT.K.y- -1y- -12Log(det(K.))- …
Um eine Überanpassung von Personen zu verhindern, fügen Menschen der Kostenfunktion der linearen Regression einen Regularisierungsterm (proportional zur quadratischen Summe der Parameter des Modells) mit einem Regularisierungsparameter . Ist dieser Parameter λ der gleiche wie ein Lagrange-Multiplikator? Ist die Regularisierung also dieselbe wie die Methode des Lagrange-Multiplikators? Oder wie hängen …
Ich versuche, den Prozess zum Trainieren einer linearen Unterstützungsvektormaschine zu verstehen . Mir ist klar, dass die Eigenschaften von SMVs es ermöglichen, sie viel schneller zu optimieren als mit einem quadratischen Programmierlöser, aber zu Lernzwecken würde ich gerne sehen, wie dies funktioniert. Trainingsdaten set.seed(2015) df <- data.frame(X1=c(rnorm(5), rnorm(5)+5), X2=c(rnorm(5), rnorm(5)+3), …
In maschinellen Lernblogs begegne ich häufig dem Wort "Vanille". Zum Beispiel "Vanilla Gradient Descent" oder "Vanilla Method". Dieser Begriff wird in Optimierungslehrbüchern buchstäblich nie verwendet. In diesem Beitrag heißt es beispielsweise: Dies ist die einfachste Form der Gradientenabstiegstechnik. Vanille bedeutet hier rein / ohne Verfälschung. Sein Hauptmerkmal ist, dass wir …
Ich habe eine Wahrscheinlichkeitsfunktion für die Wahrscheinlichkeit meiner Daten bei einigen Modellparametern , die ich schätzen möchte. Unter der Annahme flacher Prioritäten für die Parameter ist die Wahrscheinlichkeit proportional zur posterioren Wahrscheinlichkeit. Ich benutze eine MCMC-Methode, um diese Wahrscheinlichkeit abzutasten.L(d|θ)L(d|θ)\mathcal{L}(d | \theta)dddθ∈RNθ∈RN\theta \in \mathbf{R}^N Wenn ich mir die resultierende konvergierte …
Gemäß den Referenzen Buch 1 , Buch 2 und Papier . Es wurde erwähnt, dass es eine Äquivalenz zwischen der regulierten Regression (Ridge, LASSO und Elastic Net) und ihren Einschränkungsformeln gibt. Ich habe mir auch Cross Validated 1 und Cross Validated 2 angesehen , aber ich kann keine klare Antwort …
Bezieht sich die Verwendung von "Variation" immer auf die Optimierung durch Variationsinferenz? Beispiele: "Variations-Auto-Encoder" "Variations-Bayes'sche Methoden" "Variations-Renormierungsgruppe"
Ich führe Experimente mit dem EMNIST-Validierungssatz unter Verwendung von Netzwerken mit RMSProp, Adam und SGD durch. Ich erreiche eine Genauigkeit von 87% mit SGD (Lernrate von 0,1) und Dropout (0,1 Dropout Prob) sowie L2-Regularisierung (1e-05-Strafe). Wenn ich die gleiche exakte Konfiguration mit RMSProp und Adam sowie die anfängliche Lernrate von …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.