Gibt es eine mathematische oder algorithmische Definition von Überanpassung? Oft werden als Definitionen das klassische 2D-Diagramm von Punkten angegeben, bei dem eine Linie durch jeden einzelnen Punkt verläuft und die Validierungsverlustkurve plötzlich ansteigt. Aber gibt es eine mathematisch strenge Definition?
Aus jedem generischen Abtastalgorithmus kann ein Optimierungsalgorithmus abgeleitet werden. In der Tat genügt es, um eine beliebige Funktion zu maximieren , Abtastwerte aus g ∼ e f / T zu ziehen . Für klein genug ist, fallen diese Abtastwerte in die Nähe des globalen Maximums (oder der lokalen Maxima in …
Ich versuche, eine benutzerdefinierte Funktion zu minimieren. Es sollte fünf Parameter und den Datensatz akzeptieren und alle möglichen Berechnungen durchführen, um eine einzige Zahl als Ausgabe zu erhalten. Ich möchte eine Kombination von fünf Eingabeparametern finden, die die kleinste Ausgabe meiner Funktion ergibt.
Viele Online-Tutorials befassen sich mit dem Gradientenabstieg und fast alle verwenden eine feste Schrittgröße (Lernrate ). Warum wird die Zeilensuche nicht verwendet (z. B. Backtracking-Zeilensuche oder exakte Zeilensuche)?αα\alpha
Aus vielen Diskussionen habe ich ähnliche Schlussfolgerungen gezogen, dass die Konvergenz von SGD mit zunehmender Minibatch-Größe tatsächlich schwieriger / schlechter wird, zum Beispiel in diesem Artikel und in dieser Antwort . Ich habe auch von Leuten gehört, die im frühen Stadium Tricks wie kleine Lernraten oder Losgrößen einsetzten, um diese …
Warum wird Newtons Methode zur Optimierung der logistischen Regression als iterative, neu gewichtete Fehlerquadrate bezeichnet? Es scheint mir nicht klar zu sein, weil logistischer Verlust und Verlust der kleinsten Quadrate völlig verschiedene Dinge sind.
Wir definieren eine Epoche, in der alle verfügbaren Trainingsmuster durchlaufen wurden, und die Mini-Batch-Größe als die Anzahl der Muster, über die wir den Durchschnitt bilden, um die Aktualisierungen der Gewichte / Vorspannungen zu finden, die zum Abstieg des Gradienten erforderlich sind. Meine Frage ist, ob wir aus den Trainingsbeispielen ersatzlos …
Ich lerne nur etwas über Optimierung und habe Probleme, den Unterschied zwischen konvexer und nichtkonvexer Optimierung zu verstehen. Nach meinem Verständnis ist eine konvexe Funktion eine, bei der "das Liniensegment zwischen zwei beliebigen Punkten im Diagramm der Funktion über oder im Diagramm liegt". In diesem Fall könnte ein Algorithmus für …
Ich denke, dies ist eine grundlegende Frage, die mit der Richtung des Gradienten selbst zu tun hat, aber ich suche nach Beispielen, bei denen Methoden 2. Ordnung (z. B. BFGS ) effektiver sind als eine einfache Gradientenabnahme.
Mit folgendem Code kann eine logit-Regression in R durchgeführt werden: > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 Es sieht so aus, als ob der Optimierungsalgorithmus konvergiert hat - es gibt Informationen über die Schrittanzahl des Fisher-Scoring-Algorithmus: Call: …
Ich versuche, einen quadratischen Verlust zu verwenden, um eine binäre Klassifizierung für einen Spielzeugdatensatz durchzuführen. Ich verwende einen mtcarsDatensatz, verwende Meile pro Gallone und Gewicht, um die Übertragungsart vorherzusagen. Das folgende Diagramm zeigt die zwei Arten von Übertragungstypdaten in verschiedenen Farben und die Entscheidungsgrenze, die durch verschiedene Verlustfunktionen erzeugt werden. …
Ich versuche, mit optimden Ergebnissen einer einfachen linearen Regression mit zu reproduzierenglm oder sogar nlsR-Funktionen ausgestattet ist. Die Parameterschätzungen sind die gleichen, aber die Restvarianzschätzung und die Standardfehler der anderen Parameter sind nicht die gleichen, insbesondere wenn die Stichprobengröße niedrig ist. Ich nehme an, dass dies auf Unterschiede in der …
Ich habe diese Python-Implementierung des Jenks Natural Breaks- Algorithmus gefunden und konnte sie auf meinem Windows 7-Computer ausführen. Es ist ziemlich schnell und es findet die Brüche in weniger Zeit, wenn man die Größe meiner Geodaten berücksichtigt. Bevor ich diesen Clustering-Algorithmus für meine Daten verwendete, verwendete ich sklearn.clustering.KMeans (hier) Algorithmus. …
Ich verwende die glmerFunktion aus dem lme4Paket in R und verwende den bobyqaOptimierer (dh die Standardeinstellung in meinem Fall). Ich bekomme eine Warnung und bin gespannt, was das bedeutet. Warning message: In optwrap(optimizer, devfun, start, rho$lower, control = control, : convergence code 3 from bobyqa: bobyqa -- a trust region …
Ich habe versucht, einen Algorithmus zu programmieren, der Wetten in 1X2-Spielen (gewichtet) vorschlägt. Grundsätzlich hat jedes Spiel eine Reihe von Spielen (Heim- gegen Auswärtsteams): 1: Heimsiege X: zeichnen 2: auswärts gewinnt Für jede Übereinstimmung und jedes Symbol ( 1, Xund 2) werde ich einen Prozentsatz zuweisen, der die Wahrscheinlichkeit angibt, …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.