Als «optimization» getaggte Fragen

Verwenden Sie dieses Tag für jede Verwendung der Optimierung in Statistiken.

1
Warum wird in der Praxis der Abstiegsalgorithmus „Saddle-Free Newton“ nicht verwendet?
Kürzlich habe ich einen Artikel von Yann Dauphin et al. Identifizierung und Angriff auf das Sattelpunktproblem bei der hochdimensionalen nichtkonvexen Optimierung , bei der ein interessanter Abstiegsalgorithmus namens " Sattelfreies Newton" eingeführt wird , der genau auf die Optimierung des neuronalen Netzwerks zugeschnitten zu sein scheint und nicht daran zu …



3
Ist die PCA-Optimierung konvex?
Die objektive Funktion der Hauptkomponentenanalyse (PCA) ist die Minimierung des Rekonstruktionsfehlers in der L2-Norm (siehe Abschnitt 2.12 hier) . Eine andere Ansicht versucht, die Varianz bei der Projektion zu maximieren. Wir haben auch hier einen ausgezeichneten Beitrag: Was ist die objektive Funktion der PCA? ? ). Meine Frage ist, dass …

2
Wie löse ich die geringste absolute Abweichung mit der Simplex-Methode?
argminwL(w)=∑ni=1|yi−wTx|arg⁡minwL(w)=∑i=1n|yi−wTx| \underset{\textbf{w}}{\arg\min} L(w)=\sum_{i=1}^{n}|y_{i}-\textbf{w}^T\textbf{x}| min∑ni=1uimin∑i=1nui\min \sum_{i=1}^{n}u_{i} ui≥xTw−yii=1,…,nui≥xTw−yii=1,…,nu_i \geq \textbf{x}^T\textbf{w}- y_{i} \; i = 1,\ldots,n ui≥−(xTw−yi)i=1,…,nui≥−(xTw−yi)i=1,…,nu_i \geq -\left(\textbf{x}^T\textbf{w}-y_{i}\right) \; i = 1,\ldots,n Aber ich habe keine Ahnung, wie ich es Schritt für Schritt lösen soll, da ich LP-Neuling bin. Hast du irgendeine Idee? Danke im Voraus! BEARBEITEN: Hier ist der letzte Stand, …

1
Der standardmäßige lme4-Optimierer erfordert viele Iterationen für hochdimensionale Daten
TL; DR: Die lme4Optimierung scheint standardmäßig in Bezug auf die Anzahl der Modellparameter linear zu sein und ist viel langsamer als ein äquivalentes glmModell mit Dummy-Variablen für Gruppen. Kann ich irgendetwas tun, um es zu beschleunigen? Ich versuche, ein ziemlich großes hierarchisches Logit-Modell (~ 50.000 Zeilen, 100 Spalten, 50 Gruppen) …


1
Hyperparameter-Tuning in der Gaußschen Prozessregression
Ich versuche, die Hyperparameter des von mir implementierten Gaußschen Prozessregressionsalgorithmus abzustimmen. Ich möchte einfach die logarithmische Grenzwahrscheinlichkeit maximieren, die durch die Formel wobeiKdie Kovarianzmatrix mit den ElementenKij=k(xi,xj)=b-1exp(- istLog( y | X., Θ ) = - 12yT.K.- 1yy - 12Log( det ( K.) ) - n2Log( 2 π)Log⁡(y|X.,θ)=- -12yT.K.y- -1y- -12Log⁡(det(K.))- …

1
Was ist der Zusammenhang zwischen Regularisierung und der Methode der Lagrange-Multiplikatoren?
Um eine Überanpassung von Personen zu verhindern, fügen Menschen der Kostenfunktion der linearen Regression einen Regularisierungsterm (proportional zur quadratischen Summe der Parameter des Modells) mit einem Regularisierungsparameter . Ist dieser Parameter λ der gleiche wie ein Lagrange-Multiplikator? Ist die Regularisierung also dieselbe wie die Methode des Lagrange-Multiplikators? Oder wie hängen …

2
Optimieren einer Support Vector Machine mit quadratischer Programmierung
Ich versuche, den Prozess zum Trainieren einer linearen Unterstützungsvektormaschine zu verstehen . Mir ist klar, dass die Eigenschaften von SMVs es ermöglichen, sie viel schneller zu optimieren als mit einem quadratischen Programmierlöser, aber zu Lernzwecken würde ich gerne sehen, wie dies funktioniert. Trainingsdaten set.seed(2015) df <- data.frame(X1=c(rnorm(5), rnorm(5)+5), X2=c(rnorm(5), rnorm(5)+3), …
12 r  svm  optimization 

1
Was bedeutet "Vanille"?
In maschinellen Lernblogs begegne ich häufig dem Wort "Vanille". Zum Beispiel "Vanilla Gradient Descent" oder "Vanilla Method". Dieser Begriff wird in Optimierungslehrbüchern buchstäblich nie verwendet. In diesem Beitrag heißt es beispielsweise: Dies ist die einfachste Form der Gradientenabstiegstechnik. Vanille bedeutet hier rein / ohne Verfälschung. Sein Hauptmerkmal ist, dass wir …

2
Die Maximum-Likelihood-Parameter weichen von den posterioren Verteilungen ab
Ich habe eine Wahrscheinlichkeitsfunktion für die Wahrscheinlichkeit meiner Daten bei einigen Modellparametern , die ich schätzen möchte. Unter der Annahme flacher Prioritäten für die Parameter ist die Wahrscheinlichkeit proportional zur posterioren Wahrscheinlichkeit. Ich benutze eine MCMC-Methode, um diese Wahrscheinlichkeit abzutasten.L(d|θ)L(d|θ)\mathcal{L}(d | \theta)dddθ∈RNθ∈RN\theta \in \mathbf{R}^N Wenn ich mir die resultierende konvergierte …



1
RMSProp und Adam gegen SGD
Ich führe Experimente mit dem EMNIST-Validierungssatz unter Verwendung von Netzwerken mit RMSProp, Adam und SGD durch. Ich erreiche eine Genauigkeit von 87% mit SGD (Lernrate von 0,1) und Dropout (0,1 Dropout Prob) sowie L2-Regularisierung (1e-05-Strafe). Wenn ich die gleiche exakte Konfiguration mit RMSProp und Adam sowie die anfängliche Lernrate von …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.