Statistiken und Big Data optimization

1

Mathematische / algorithmische Definition für Überanpassung

Gibt es eine mathematische oder algorithmische Definition von Überanpassung? Oft werden als Definitionen das klassische 2D-Diagramm von Punkten angegeben, bei dem eine Linie durch jeden einzelnen Punkt verläuft und die Validierungsverlustkurve plötzlich ansteigt. Aber gibt es eine mathematisch strenge Definition?

18 mathematical-statistics optimization overfitting

3

Sind Optimierungstechniken Stichprobenverfahren zugeordnet?

Aus jedem generischen Abtastalgorithmus kann ein Optimierungsalgorithmus abgeleitet werden. In der Tat genügt es, um eine beliebige Funktion zu maximieren , Abtastwerte aus g ∼ e f / T zu ziehen . Für klein genug ist, fallen diese Abtastwerte in die Nähe des globalen Maximums (oder der lokalen Maxima in …

18 sampling optimization

3

Gibt es eine Möglichkeit, eine benutzerdefinierte Funktion in R zu maximieren / zu minimieren?

Ich versuche, eine benutzerdefinierte Funktion zu minimieren. Es sollte fünf Parameter und den Datensatz akzeptieren und alle möglichen Berechnungen durchführen, um eine einzige Zahl als Ausgabe zu erhalten. Ich möchte eine Kombination von fünf Eingabeparametern finden, die die kleinste Ausgabe meiner Funktion ergibt.

18 r optimization

2

Werden beim Deep Learning Zeilensuchmethoden eingesetzt? Warum nicht?

Viele Online-Tutorials befassen sich mit dem Gradientenabstieg und fast alle verwenden eine feste Schrittgröße (Lernrate ). Warum wird die Zeilensuche nicht verwendet (z. B. Backtracking-Zeilensuche oder exakte Zeilensuche)?αα\alpha

18 machine-learning neural-networks optimization deep-learning

3

Wie wirkt sich die Chargengröße auf die Konvergenz von SGD aus und warum?

Aus vielen Diskussionen habe ich ähnliche Schlussfolgerungen gezogen, dass die Konvergenz von SGD mit zunehmender Minibatch-Größe tatsächlich schwieriger / schlechter wird, zum Beispiel in diesem Artikel und in dieser Antwort . Ich habe auch von Leuten gehört, die im frühen Stadium Tricks wie kleine Lernraten oder Losgrößen einsetzten, um diese …

18 machine-learning neural-networks optimization gradient-descent sgd

1

Warum wird Newtons Methode zur Optimierung der logistischen Regression als iterative, neu gewichtete Fehlerquadrate bezeichnet?

Warum wird Newtons Methode zur Optimierung der logistischen Regression als iterative, neu gewichtete Fehlerquadrate bezeichnet? Es scheint mir nicht klar zu sein, weil logistischer Verlust und Verlust der kleinsten Quadrate völlig verschiedene Dinge sind.

18 logistic generalized-linear-model optimization irls fisher-scoring

2

Sollten Trainingsmuster, die zufällig für Mini-Batch-Trainingsnetze gezogen wurden, ersatzlos gezogen werden?

Wir definieren eine Epoche, in der alle verfügbaren Trainingsmuster durchlaufen wurden, und die Mini-Batch-Größe als die Anzahl der Muster, über die wir den Durchschnitt bilden, um die Aktualisierungen der Gewichte / Vorspannungen zu finden, die zum Abstieg des Gradienten erforderlich sind. Meine Frage ist, ob wir aus den Trainingsbeispielen ersatzlos …

18 machine-learning neural-networks optimization deep-learning

2

Kann die Gradientenabsenkung auf nicht konvexe Funktionen angewendet werden?

Ich lerne nur etwas über Optimierung und habe Probleme, den Unterschied zwischen konvexer und nichtkonvexer Optimierung zu verstehen. Nach meinem Verständnis ist eine konvexe Funktion eine, bei der "das Liniensegment zwischen zwei beliebigen Punkten im Diagramm der Funktion über oder im Diagramm liegt". In diesem Fall könnte ein Algorithmus für …

18 optimization

4

Warum sind Derivate zweiter Ordnung bei der konvexen Optimierung nützlich?

Ich denke, dies ist eine grundlegende Frage, die mit der Richtung des Gradienten selbst zu tun hat, aber ich suche nach Beispielen, bei denen Methoden 2. Ordnung (z. B. BFGS ) effektiver sind als eine einfache Gradientenabnahme.

18 optimization

3

Welcher Optimierungsalgorithmus wird in glm-Funktion in R verwendet?

Mit folgendem Code kann eine logit-Regression in R durchgeführt werden: > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 Es sieht so aus, als ob der Optimierungsalgorithmus konvergiert hat - es gibt Informationen über die Schrittanzahl des Fisher-Scoring-Algorithmus: Call: …

17 r generalized-linear-model optimization algorithms logit

2

Was passiert hier, wenn ich bei der Einstellung der logistischen Regression den quadratischen Verlust verwende?

Ich versuche, einen quadratischen Verlust zu verwenden, um eine binäre Klassifizierung für einen Spielzeugdatensatz durchzuführen. Ich verwende einen mtcarsDatensatz, verwende Meile pro Gallone und Gewicht, um die Übertragungsart vorherzusagen. Das folgende Diagramm zeigt die zwei Arten von Übertragungstypdaten in verschiedenen Farben und die Entscheidungsgrenze, die durch verschiedene Verlustfunktionen erzeugt werden. …

16 r machine-learning logistic optimization loss-functions

2

Reststandardfehlerdifferenz zwischen optim und glm

Ich versuche, mit optimden Ergebnissen einer einfachen linearen Regression mit zu reproduzierenglm oder sogar nlsR-Funktionen ausgestattet ist. Die Parameterschätzungen sind die gleichen, aber die Restvarianzschätzung und die Standardfehler der anderen Parameter sind nicht die gleichen, insbesondere wenn die Stichprobengröße niedrig ist. Ich nehme an, dass dies auf Unterschiede in der …

16 r maximum-likelihood optimization

1

Jenks Natural Breaks in Python: Wie finde ich die optimale Anzahl von Pausen?

Ich habe diese Python-Implementierung des Jenks Natural Breaks- Algorithmus gefunden und konnte sie auf meinem Windows 7-Computer ausführen. Es ist ziemlich schnell und es findet die Brüche in weniger Zeit, wenn man die Größe meiner Geodaten berücksichtigt. Bevor ich diesen Clustering-Algorithmus für meine Daten verwendete, verwendete ich sklearn.clustering.KMeans (hier) Algorithmus. …

16 python clustering optimization

1

Bedeutung einer Konvergenzwarnung in glmer

Ich verwende die glmerFunktion aus dem lme4Paket in R und verwende den bobyqaOptimierer (dh die Standardeinstellung in meinem Fall). Ich bekomme eine Warnung und bin gespannt, was das bedeutet. Warning message: In optwrap(optimizer, devfun, start, rho$lower, control = control, : convergence code 3 from bobyqa: bobyqa -- a trust region …

16 r optimization lme4-nlme convergence glmm

3

Große, kluge Einsätze machen

Ich habe versucht, einen Algorithmus zu programmieren, der Wetten in 1X2-Spielen (gewichtet) vorschlägt. Grundsätzlich hat jedes Spiel eine Reihe von Spielen (Heim- gegen Auswärtsteams): 1: Heimsiege X: zeichnen 2: auswärts gewinnt Für jede Übereinstimmung und jedes Symbol ( 1, Xund 2) werde ich einen Prozentsatz zuweisen, der die Wahrscheinlichkeit angibt, …

16 optimization

Als «optimization» getaggte Fragen