Hinweis: Ich stelle eine Frage eines ehemaligen Studenten, der aus technischen Gründen nicht in der Lage ist, selbst zu posten. Ausgehend von einer iid-Stichprobe x1, … , Xnx1,…,xnx_1,\ldots,x_n aus einer Weibull-Verteilung mit pdf fk( X ) = k xk - 1e- xkx > 0fk(x)=kxk-1e-xkx>0 f_k(x) = k x^{k-1} e^{-x^k} \quad …
Ich forsche an Optimierungstechniken für maschinelles Lernen, bin jedoch überrascht, dass eine große Anzahl von Optimierungsalgorithmen im Hinblick auf andere Optimierungsprobleme definiert wurde. Ich illustriere im Folgenden einige Beispiele. Zum Beispiel https://arxiv.org/pdf/1511.05133v1.pdf Alles sieht schön und gut aus, aber dann gibt es dieses im . Was ist also der Algorithmus, …
Vor kurzem gab es eine ML-ähnliche Frage zum theoretischen Stapelaustausch, und ich gab eine Antwort, in der Powells Methode, Gradientenabstieg, genetische Algorithmen oder andere "Approximationsalgorithmen" empfohlen wurden . In einem Kommentar sagte mir jemand, diese Methoden seien "Heuristiken" und keine "Approximationsalgorithmen" und näherten sich häufig nicht dem theoretischen Optimum (weil …
Ich frage mich, ob es immer einen Maximierer für ein (log-) Wahrscheinlichkeitsschätzungsproblem gibt. Mit anderen Worten, gibt es eine Verteilung und einige ihrer Parameter, für die das MLE-Problem keinen Maximierer hat? Meine Frage stammt aus der Behauptung eines Ingenieurs, dass die Kostenfunktion (Wahrscheinlichkeit oder logarithmische Wahrscheinlichkeit, ich bin nicht sicher, …
Ich habe mich gefragt, was die verschiedenen Anwendungsfälle für die beiden Algorithmen Koordinatensinkflug und Gradientensinkflug sind . Ich weiß, dass der Koordinatenabstieg Probleme mit nicht glatten Funktionen hat, aber er wird in gängigen Algorithmen wie SVM und LASSO verwendet. Gradientenabstieg wird jedoch meiner Meinung nach häufiger eingesetzt, insbesondere bei der …
Es gibt hier einen ähnlichen Thread ( Kostenfunktion des neuronalen Netzwerks ist nicht konvex? ), Aber ich konnte die Punkte in den Antworten dort nicht verstehen und mein Grund für die erneute Frage, in der Hoffnung, dass dies einige Probleme klären wird: Wenn ich die Funktion für die Summe der …
Angenommen, ich habe das folgende Modell yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i Dabei ist , ein Vektor erklärender Variablen, die Parameter der nichtlinearen Funktion und , wobei natürlich Matrix.x i θ f ≤ i ≤ N ( 0 , ≤ ) ≤ K × Kyi∈RKyi∈RKy_i\in \mathbb{R}^Kxixix_iθθ\thetafffεi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma)ΣΣ\SigmaK×KK×KK\times K Das Ziel ist die übliche Schätzung von …
Warum ist es so üblich, Schätzungen der maximalen Wahrscheinlichkeit von Parametern zu erhalten, aber Sie hören so gut wie nie von Schätzungen der erwarteten Wahrscheinlichkeitsparameter (dh basierend auf dem erwarteten Wert und nicht auf dem Modus einer Wahrscheinlichkeitsfunktion)? Ist dies in erster Linie aus historischen Gründen oder aus sachlicheren technischen …
Ich muss ein Programm implementieren, das Datensätze basierend auf einigen Trainingsdaten in 2 Kategorien (wahr / falsch) klassifiziert, und ich habe mich gefragt, welchen Algorithmus / welche Methodik ich betrachten soll. Es scheint eine Menge von ihnen zur Auswahl zu geben - künstliches neuronales Netzwerk, genetischer Algorithmus, maschinelles Lernen, Bayesianische …
Wir haben viele gute Diskussionen über die perfekte Trennung in der logistischen Regression. So führte die logistische Regression in R zu einer perfekten Trennung (Hauck-Donner-Phänomen). Was jetzt? Das logistische Regressionsmodell konvergiert nicht . Ich persönlich glaube immer noch, dass es nicht intuitiv ist, warum es ein Problem sein wird und …
Ich kenne die Definition der symmetrischen positiv definierten (SPD) Matrix, möchte aber mehr verstehen. Warum sind sie intuitiv so wichtig? Hier ist was ich weiß. Was sonst? Für gegebene Daten ist die Kovarianzmatrix SPD. Die Kovarianzmatrix ist eine wichtige Metrik. Eine intuitive Erklärung finden Sie in diesem hervorragenden Beitrag . …
Warum werden beim Training tiefer und flacher neuronaler Netze im Gegensatz zu anderen Metaheuristiken häufig Gradientenmethoden (z. B. Gradientenabstieg, Nesterov, Newton-Raphson) verwendet? Mit Metaheuristik meine ich Methoden wie simuliertes Tempern, Optimierung von Ameisenkolonien usw., die entwickelt wurden, um zu vermeiden, dass sie in einem lokalen Minimum hängen bleiben.
Genetische Algorithmen sind eine Form der Optimierungsmethode. Oft ist der stochastische Gradientenabstieg und seine Derivate die beste Wahl für die Funktionsoptimierung, aber manchmal werden noch genetische Algorithmen verwendet. Die Antenne der NASA-Raumsonde ST5 wurde beispielsweise mit einem genetischen Algorithmus erstellt: Wann sind genetische Optimierungsmethoden die bessere Wahl als häufigere Gradientenabstiegsmethoden?
Ich bin neu in der Optimierung. Ich sehe immer wieder Gleichungen mit einem hochgestellten 2 und einem tiefgestellten 2 auf der rechten Seite einer Norm. Hier ist zum Beispiel die Gleichung der kleinsten Quadrate min| | Ax-b | |22||Ax−b||22 ||Ax-b||^2_2 Ich glaube, ich verstehe das hochgestellte 2: Es bedeutet, den …
Ich habe theano zum Experimentieren mit LSTMs verwendet und mich gefragt, welche Optimierungsmethoden (SGD, Adagrad, Adadelta, RMSprop, Adam usw.) für LSTMs am besten funktionieren. Gibt es Forschungsarbeiten zu diesem Thema? Hängt die Antwort auch von der Art der Anwendung ab, für die ich das LSTM verwende? In diesem Fall verwende …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.