Als «optimization» getaggte Fragen

Verwenden Sie dieses Tag für jede Verwendung der Optimierung in Statistiken.

8
Warum ist Newtons Methode beim maschinellen Lernen nicht weit verbreitet?
Das nervt mich schon seit einiger Zeit und ich konnte online keine zufriedenstellenden Antworten finden. Nach einer Reihe von Vorlesungen zur konvexen Optimierung scheint die Newton-Methode ein weitaus überlegener Algorithmus zu sein als die Gradientenabsenkung, um global optimale Lösungen zu finden, da die Newton-Methode eine Garantie für ihre Lösung, ihre …

3
Batch-Gefälle versus stochastisches Gefälle
Angenommen, wir haben eine Trainingsmenge ( x( i ), y( i ))(x(i),y(i))(x_{(i)}, y_{(i)}) für i = 1 , ... , mi=1,…,mi = 1, \dots, m . Angenommen, wir führen eine Art von überwachtem Lernalgorithmus für den Trainingssatz aus. Hypothesen werden dargestellt als hθ( x( i )) = θ0+ θ1X( i …

6
Ist es möglich, ein neuronales Netzwerk ohne Backpropagation zu trainieren?
Viele Bücher und Tutorials zu neuronalen Netzen verbringen viel Zeit mit dem Backpropagation-Algorithmus, der im Wesentlichen ein Werkzeug zur Berechnung des Gradienten darstellt. Nehmen wir an, wir bauen ein Modell mit ~ 10K Parametern / Gewichten. Ist es möglich, die Optimierung mit einigen gradientenfreien Optimierungsalgorithmen durchzuführen? Ich denke, die Berechnung …


7
Warum die maximale Log-Wahrscheinlichkeit anstelle der Wahrscheinlichkeit optimieren?
In den meisten maschinellen Lernaufgaben, in denen Sie eine Wahrscheinlichkeit formulieren können, die maximiert werden sollte, würden wir tatsächlich die log-Wahrscheinlichkeit anstelle der Wahrscheinlichkeit für einige Parameter optimieren . ZB beim Maximum-Likelihood-Training ist es normalerweise die Log-Likelihood. Wenn Sie dies mit einer Gradientenmethode tun, beinhaltet dies einen Faktor:ppplogplog⁡p\log pθθ\theta ∂logp∂θ=1p⋅∂p∂θ∂log⁡p∂θ=1p⋅∂p∂θ …

7
Optimierung, wenn die Kostenfunktion nur langsam evaluiert werden kann
Gradientenabstieg und viele andere Methoden sind nützlich, um lokale Minima in Kostenfunktionen zu finden. Sie können effizient sein, wenn die Kostenfunktion an jedem Punkt schnell ausgewertet werden kann, sei es numerisch oder analytisch. Ich habe eine für mich ungewöhnliche Situation. Jede Bewertung meiner Kostenfunktion ist teuer. Ich versuche, eine Reihe …

5
Was ist eine intuitive Erklärung dafür, wie sich PCA von einem geometrischen Problem (mit Abständen) zu einem linearen Algebraproblem (mit Eigenvektoren) entwickelt?
Ich habe viel über PCA gelesen, einschließlich verschiedener Tutorials und Fragen (wie diese , diese , diese und diese ). Das geometrische Problem, das PCA zu optimieren versucht, ist mir klar: PCA versucht, die erste Hauptkomponente durch Minimierung des Rekonstruktionsfehlers (Projektionsfehlers) zu finden, wodurch gleichzeitig die Varianz der projizierten Daten …


1
Verständnis „Fast alle lokalen Minima haben einen sehr ähnlichen Funktionswert wie das globale Optimum“
In einem kürzlich veröffentlichten Blog-Beitrag von Rong Ge hieß es: Es wird angenommen, dass für viele Probleme, einschließlich des Lernens tiefer Netze, fast alle lokalen Minima einen sehr ähnlichen Funktionswert aufweisen wie das globale Optimum, und daher ist es gut genug, ein lokales Minimum zu finden. Woher kommt dieser Glaube?


1
Neuronale Netze: Gewichtsänderungsimpuls und Gewichtsabfall
Das Momentum wird verwendet, um die Schwankungen der Gewichtsänderungen während aufeinanderfolgender Iterationen zu verringern:αα\alpha wobeiE(w)ist die Fehlerfunktionw- der Vektor der Gewichte,η- Lernrate.Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E(w)E(w)E({\bf w})ww{\bf w}ηη\eta Gewichtsabnahme bestraft die Gewichtsveränderungen:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i Die Frage ist, ob es sinnvoll …



3
Vergleich von SVM und logistischer Regression
Kann mir bitte jemand eine Vorstellung davon geben, wann ich mich für SVM oder LR entscheiden soll? Ich möchte die Intuition hinter dem Unterschied zwischen den Optimierungskriterien für das Erlernen der Hyperebene der beiden verstehen, wobei die jeweiligen Ziele wie folgt lauten: SVM: Versuchen Sie, den Abstand zwischen den nächstgelegenen …

5
Können Sie maschinelles Lernen mit CV / Bootstrap trainieren?
Diese Frage mag zu offen sein, um eine endgültige Antwort zu erhalten, aber hoffentlich nicht. Algorithmen für maschinelles Lernen, wie SVM, GBM, Random Forest usw., haben im Allgemeinen einige freie Parameter, die über eine Faustregel hinaus auf jeden Datensatz abgestimmt werden müssen. Dies wird im Allgemeinen mit einer Art Neuabtastungstechnik …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.