Statistiken und Big Data optimization

1

Warum wird in der Praxis der Abstiegsalgorithmus „Saddle-Free Newton“ nicht verwendet?

Kürzlich habe ich einen Artikel von Yann Dauphin et al. Identifizierung und Angriff auf das Sattelpunktproblem bei der hochdimensionalen nichtkonvexen Optimierung , bei der ein interessanter Abstiegsalgorithmus namens " Sattelfreies Newton" eingeführt wird , der genau auf die Optimierung des neuronalen Netzwerks zugeschnitten zu sein scheint und nicht daran zu …

13 optimization deep-learning gradient-descent

2

Ist Deep Learning nützlich für die kombinatorische Optimierung?

Gibt es Forschergruppen, die daran arbeiten, Deep Learning für kombinatorische Optimierungsprobleme einzusetzen?

13 optimization deep-learning

3

Kann mir bitte jemand den Backpropagation-Algorithmus erklären? [Duplikat]

Diese Frage hat hier bereits Antworten : Backpropagation-Algorithmus (2 Antworten) Geschlossen im letzten Monat . Was ist der Backpropagation-Algorithmus und wie funktioniert er?

13 algorithms optimization neural-networks

3

Ist die PCA-Optimierung konvex?

Die objektive Funktion der Hauptkomponentenanalyse (PCA) ist die Minimierung des Rekonstruktionsfehlers in der L2-Norm (siehe Abschnitt 2.12 hier) . Eine andere Ansicht versucht, die Varianz bei der Projektion zu maximieren. Wir haben auch hier einen ausgezeichneten Beitrag: Was ist die objektive Funktion der PCA? ? ). Meine Frage ist, dass …

12 machine-learning pca optimization convex

2

Wie löse ich die geringste absolute Abweichung mit der Simplex-Methode?

argminwL(w)=∑ni=1|yi−wTx|arg⁡minwL(w)=∑i=1n|yi−wTx| \underset{\textbf{w}}{\arg\min} L(w)=\sum_{i=1}^{n}|y_{i}-\textbf{w}^T\textbf{x}| min∑ni=1uimin∑i=1nui\min \sum_{i=1}^{n}u_{i} ui≥xTw−yii=1,…,nui≥xTw−yii=1,…,nu_i \geq \textbf{x}^T\textbf{w}- y_{i} \; i = 1,\ldots,n ui≥−(xTw−yi)i=1,…,nui≥−(xTw−yi)i=1,…,nu_i \geq -\left(\textbf{x}^T\textbf{w}-y_{i}\right) \; i = 1,\ldots,n Aber ich habe keine Ahnung, wie ich es Schritt für Schritt lösen soll, da ich LP-Neuling bin. Hast du irgendeine Idee? Danke im Voraus! BEARBEITEN: Hier ist der letzte Stand, …

12 regression optimization quantile-regression linear-programming least-absolute-deviations

1

Der standardmäßige lme4-Optimierer erfordert viele Iterationen für hochdimensionale Daten

TL; DR: Die lme4Optimierung scheint standardmäßig in Bezug auf die Anzahl der Modellparameter linear zu sein und ist viel langsamer als ein äquivalentes glmModell mit Dummy-Variablen für Gruppen. Kann ich irgendetwas tun, um es zu beschleunigen? Ich versuche, ein ziemlich großes hierarchisches Logit-Modell (~ 50.000 Zeilen, 100 Spalten, 50 Gruppen) …

12 r mixed-model optimization lme4-nlme numerics

2

Was ist die Maxnorm-Einschränkung? Wie ist es in Faltungs-Neuronalen Netzen nützlich?

Hier ist ein Keras-Codebeispiel, das es verwendet: from keras.constraints import max_norm model.add(Convolution2D(32, 3, 3, input_shape=(3, 32, 32), border_mode='same', activation='relu', kernel_constraint=max_norm(3)))

12 neural-networks regularization conv-neural-network optimization

1

Hyperparameter-Tuning in der Gaußschen Prozessregression

Ich versuche, die Hyperparameter des von mir implementierten Gaußschen Prozessregressionsalgorithmus abzustimmen. Ich möchte einfach die logarithmische Grenzwahrscheinlichkeit maximieren, die durch die Formel wobeiKdie Kovarianzmatrix mit den ElementenKij=k(xi,xj)=b-1exp(- istLog( y | X., Θ ) = - 12yT.K.- 1yy - 12Log( det ( K.) ) - n2Log( 2 π)Log⁡(y|X.,θ)=- -12yT.K.y- -1y- -12Log⁡(det(K.))- …

12 regression optimization gaussian-process hyperparameter

1

Was ist der Zusammenhang zwischen Regularisierung und der Methode der Lagrange-Multiplikatoren?

Um eine Überanpassung von Personen zu verhindern, fügen Menschen der Kostenfunktion der linearen Regression einen Regularisierungsterm (proportional zur quadratischen Summe der Parameter des Modells) mit einem Regularisierungsparameter . Ist dieser Parameter λ der gleiche wie ein Lagrange-Multiplikator? Ist die Regularisierung also dieselbe wie die Methode des Lagrange-Multiplikators? Oder wie hängen …

12 regression optimization regularization

2

Optimieren einer Support Vector Machine mit quadratischer Programmierung

Ich versuche, den Prozess zum Trainieren einer linearen Unterstützungsvektormaschine zu verstehen . Mir ist klar, dass die Eigenschaften von SMVs es ermöglichen, sie viel schneller zu optimieren als mit einem quadratischen Programmierlöser, aber zu Lernzwecken würde ich gerne sehen, wie dies funktioniert. Trainingsdaten set.seed(2015) df <- data.frame(X1=c(rnorm(5), rnorm(5)+5), X2=c(rnorm(5), rnorm(5)+3), …

12 r svm optimization

1

Was bedeutet "Vanille"?

In maschinellen Lernblogs begegne ich häufig dem Wort "Vanille". Zum Beispiel "Vanilla Gradient Descent" oder "Vanilla Method". Dieser Begriff wird in Optimierungslehrbüchern buchstäblich nie verwendet. In diesem Beitrag heißt es beispielsweise: Dies ist die einfachste Form der Gradientenabstiegstechnik. Vanille bedeutet hier rein / ohne Verfälschung. Sein Hauptmerkmal ist, dass wir …

12 machine-learning optimization terminology gradient-descent

2

Die Maximum-Likelihood-Parameter weichen von den posterioren Verteilungen ab

Ich habe eine Wahrscheinlichkeitsfunktion für die Wahrscheinlichkeit meiner Daten bei einigen Modellparametern , die ich schätzen möchte. Unter der Annahme flacher Prioritäten für die Parameter ist die Wahrscheinlichkeit proportional zur posterioren Wahrscheinlichkeit. Ich benutze eine MCMC-Methode, um diese Wahrscheinlichkeit abzutasten.L(d|θ)L(d|θ)\mathcal{L}(d | \theta)dddθ∈RNθ∈RN\theta \in \mathbf{R}^N Wenn ich mir die resultierende konvergierte …

11 bayesian maximum-likelihood optimization inference mcmc

2

Zeigen der Äquivalenz zwischen der regulierten Regression der

Gemäß den Referenzen Buch 1 , Buch 2 und Papier . Es wurde erwähnt, dass es eine Äquivalenz zwischen der regulierten Regression (Ridge, LASSO und Elastic Net) und ihren Einschränkungsformeln gibt. Ich habe mir auch Cross Validated 1 und Cross Validated 2 angesehen , aber ich kann keine klare Antwort …

11 regression optimization lasso ridge-regression elastic-net

1

Was bedeutet "Variation"?

Bezieht sich die Verwendung von "Variation" immer auf die Optimierung durch Variationsinferenz? Beispiele: "Variations-Auto-Encoder" "Variations-Bayes'sche Methoden" "Variations-Renormierungsgruppe"

11 machine-learning optimization inference

1

RMSProp und Adam gegen SGD

Ich führe Experimente mit dem EMNIST-Validierungssatz unter Verwendung von Netzwerken mit RMSProp, Adam und SGD durch. Ich erreiche eine Genauigkeit von 87% mit SGD (Lernrate von 0,1) und Dropout (0,1 Dropout Prob) sowie L2-Regularisierung (1e-05-Strafe). Wenn ich die gleiche exakte Konfiguration mit RMSProp und Adam sowie die anfängliche Lernrate von …

11 machine-learning optimization sgd adam

Als «optimization» getaggte Fragen