Eine Black-Box-Funktion , die punktweise unter Berücksichtigung des Gaußschen Rauschens ausgewertet wird, dh kann mithilfe der Bayes'schen Optimierung minimiert werden, wobei ein Gaußscher Prozess als verrauschtes Funktionsmodell verwendet wird.f: R.n→ R.f::R.n→R.f: \mathbb{R}^n \rightarrow \mathbb{R}f( x ) + N.( μ ( x ) , σ(x )2)f(x)+N.(μ(x),σ(x)2)f(x) + \mathcal{N}(\mu(x),\sigma(x)^2) Wie kann die …
Ich versuche zu verstehen, was der Unterschied zwischen simuliertem Tempern und dem Ausführen mehrerer gieriger Bergsteigeralgorithmen ist. Nach meinem Verständnis wird der Gier-Algorithmus die Punktzahl auf ein lokales Maximum bringen. Wenn wir jedoch mit mehreren zufälligen Konfigurationen beginnen und Gier auf alle anwenden, haben wir mehrere lokale Maxima. Dann wählen …
Ich bin ziemlich neu im maschinellen Lernen und in der Statistik, aber ich habe mich gefragt, warum die Bayes'sche Optimierung beim Lernen von maschinellem Lernen zur Optimierung Ihrer Algorithmus-Hyperparameter nicht häufiger online verwendet wird. Verwenden Sie beispielsweise ein Framework wie dieses: https://github.com/fmfn/BayesianOptimization Hat die Bayes'sche Optimierung Ihrer Hyperparameter eine Einschränkung …
Wenn wir einen großen Datensatz haben, können wir ihn im Allgemeinen in (1) Training, (2) Validierung und (3) Test aufteilen. Wir verwenden die Validierung, um die besten Hyperparameter bei der Kreuzvalidierung zu identifizieren (z. B. C in SVM), und trainieren dann das Modell unter Verwendung der besten Hyperparameter mit dem …
Ich habe die großartigen Kommentare zum Umgang mit fehlenden Werten vor dem Anwenden von SVD gelesen, möchte aber anhand eines einfachen Beispiels wissen, wie dies funktioniert: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Wenn ich in der …
Beide Prozesse scheinen verwendet zu werden, um den Maximalwert einer unbekannten Funktion zu schätzen, und beide haben offensichtlich unterschiedliche Möglichkeiten, dies zu tun. Aber in der Praxis ist eine der beiden Methoden im Wesentlichen austauschbar? Wo würde ich eins über das andere verwenden wollen? https://en.wikipedia.org/wiki/Simulated_annealing http://www.iro.umontreal.ca/~bengioy/cifar/NCAP2014-summerschool/slides/Ryan_adams_140814_bayesopt_ncap.pdf Ähnliche Frage Bayes'sche Optimierung …
Ich probiere Bayesian Optimization aus und folge Snoek, Larochelle und Adams [ http://arxiv.org/pdf/1206.2944.pdf] mit GPML [ http://www.gaussianprocess.org/gpml/code/matlab / doc /] . Ich habe die auf Seite 3 beschriebene Erfassungsfunktion für erwartete Verbesserungen implementiert und gehe davon aus, dass ich richtig bin. Um zu entscheiden, wo ich mein Ziel als nächstes …
Ich führe einige Optimierungen mit der Implementierung von BFGS durch Optim durch. Die Zielfunktion ist eigentlich ein Rechenalgorithmus, nicht nur Mathematik. Ich habe festgestellt, dass sich die Dinge ziemlich verlangsamen, wenn ich eine L1-Strafe hinzufüge. Warum könnte das sein? Gibt es etwas an L1, das die Dinge verlangsamt? Wie ist …
Ich versuche zu verstehen , wie Regularisierung in der Bezeichnung der Projektionen auf ein Werk l∗l∗l_* Kugel und euklidische Projektion auf die simplex. Ich bin mir nicht sicher, ob ich verstehe, was wir meinen, wenn wir den Gewichtsvektor auf die l1l1l_1 oder l2l2l_2 Bälle projizieren . Ich kann das Konzept …
Ich verstehe, wo der E-Schritt im Algorithmus stattfindet (wie im Abschnitt "Mathematik" unten erläutert). Meiner Meinung nach ist der Schlüsseleinfallsreichtum des Algorithmus die Verwendung der Jensen-Ungleichung, um eine Untergrenze für die Log-Wahrscheinlichkeit zu erstellen. In diesem Sinne Expectationwird einfach genommen, um die logarithmische Wahrscheinlichkeit neu zu formulieren, um in Jensens …
Es gibt viele Regeln für die Auswahl einer optimalen Behälterbreite in einem 1D-Histogramm (siehe zum Beispiel ). Ich suche nach einer Regel, die die Auswahl optimaler Breiten gleicher Bin auf zweidimensionale Histogramme anwendet . Gibt es eine solche Regel? Vielleicht kann eine der bekannten Regeln für 1D-Histogramme leicht angepasst werden. …
Ich habe gerade angefangen, das Autoencoder- Paket in R zu verwenden. Eingaben in die autoencode()Funktion umfassen Lambda, Beta, Rho und Epsilon. Was sind die Grenzen für diese Werte? Variieren sie für jede Aktivierungsfunktion? Werden diese Parameter "Hyperparameter" genannt? Ist rho = .01 unter der Annahme eines spärlichen Autoencoders gut für …
Ich habe mit logistischer Regression mit verschiedenen Batch-Optimierungsalgorithmen (konjugierter Gradient, Newton-Raphson und verschiedene Quasinewton-Methoden) herumgespielt. Eine Sache, die mir aufgefallen ist, ist, dass das Hinzufügen von mehr Daten zu einem Modell manchmal dazu führen kann, dass das Training des Modells viel weniger Zeit in Anspruch nimmt. Für jede Iteration müssen …
Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …
http://cran.r-project.org/web/packages/quadprog/quadprog.pdf Das R-Paket quadprogscheint in der Lage zu sein, das quadratische Programmierproblem nur zu lösen, wenn die Matrix positiv definit ist.DDD Es gibt jedoch einen Fall, in dem die Matrix nicht eindeutig positiv ist. sowieDDD min(x2+y2−6xy)subject tox+y3x+yx,y≤≤≥1,1.5,0.min(x2+y2−6xy)subject tox+y≤1,3x+y≤1.5,x,y≥0.\begin{eqnarray} \min(x^2 + y^2 - 6xy) \\ \text{subject to}\quad\quad x + y &\leq& …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.