Statistiken und Big Data gradient-descent

5

Warum gibt k-means nicht das globale Minimum an?

Ich habe gelesen, dass der k-means-Algorithmus nur zu einem lokalen Minimum und nicht zu einem globalen Minimum konvergiert. Warum ist das? Ich kann mir logischerweise vorstellen, wie sich die Initialisierung auf das endgültige Clustering auswirken könnte, und es besteht die Möglichkeit eines suboptimalen Clusterings, aber ich habe nichts gefunden, was …

16 clustering k-means convergence gradient-descent minimum

2

Was ist der Unterschied zwischen Maximum Likelihood Estimation und Gradient Descent?

Was sind die Vor- und Nachteile beider Methoden?

16 maximum-likelihood predictive-models optimization gradient-descent

3

Was ist der Unterschied zwischen Online- und Batch-Lernen?

Derzeit lese ich die Arbeit Efficient Online and Batch Learning mit Forward-Backward Splitting von John Duchi und Yoram Singer. Ich bin sehr verwirrt über die Verwendung der Begriffe "Online" und "Batch". Ich dachte, "Online" bedeutet, dass wir die Gewichtsparameter nach der Verarbeitung einer Einheit der Trainingsdaten aktualisieren. Dann verwenden wir …

16 machine-learning online gradient-descent

1

Wie kann der stochastische Gradientenabstieg im Vergleich zum normalen Gradientenabstieg Zeit sparen?

Standardgradientenabstieg berechnet den Gradienten für den gesamten Trainingsdatensatz. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Für eine vordefinierte Anzahl von Epochen berechnen wir zunächst den Gradientenvektor Weight_Grad der Verlustfunktion für den gesamten Datensatz mit unseren Parametervektorparametern. Im Gegensatz dazu führt der …

15 machine-learning optimization gradient-descent computational-statistics sgd

1

Erläuterung der Implementierung von Perceptron-Regel vs. Gradient Descent vs. Stochastic Gradient Descent

Ich habe ein wenig mit verschiedenen Perceptron-Implementierungen experimentiert und möchte sicherstellen, dass ich die "Iterationen" richtig verstehe. Rosenblatts ursprüngliche Perzeptronregel Soweit ich weiß, werden bei Rosenblatts klassischem Perzeptron-Algorithmus die Gewichte nach jedem Trainingsbeispiel gleichzeitig über aktualisiert Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i wo hier die ist. Und sowohl Ziel …

15 optimization gradient-descent perceptron

1

Summe oder Durchschnitt der Gradienten in (Mini) Batch-Gradienten anständig?

Als ich Mini Batch Gradient Decent implementiert habe, habe ich nur die Gradienten aller Beispiele im Trainingsbatch gemittelt. Allerdings ist mir aufgefallen, dass jetzt die optimale Lernrate deutlich höher ist als bei anständigen Online-Gefällen. Meiner Intuition nach ist dies so, weil der gemittelte Gradient weniger verrauscht ist und somit schneller …

15 neural-networks gradient-descent backpropagation

1

Wie vermeiden CNNs das Problem des verschwindenden Gradienten?

Ich habe viel über gewundene neuronale Netze gelesen und mich gefragt, wie sie das Problem des verschwindenden Gradienten vermeiden. Ich weiß, dass Deep-Believe-Netzwerke Single-Level-Auto-Encoder oder andere vorgefertigte flache Netzwerke stapeln und so dieses Problem vermeiden können, aber ich weiß nicht, wie es in CNNs vermieden wird. Laut Wikipedia : "Trotz …

15 machine-learning optimization deep-learning gradient-descent

1

Warum verwenden wir nicht konstante Lernraten für anständige Gradienten für andere Dinge als neuronale Netze?

Deep-Learning-Literatur steckt voller cleverer Tricks bei der Verwendung nicht konstanter Lernraten beim Gradientenabstieg. Dinge wie Exponential Decay, RMSprop, Adagrad usw. sind einfach zu implementieren und in jedem Deep-Learning-Paket verfügbar, scheinen jedoch außerhalb neuronaler Netze nicht zu existieren. Gibt es einen Grund dafür? Wenn es den Menschen einfach egal ist, gibt …

14 machine-learning deep-learning optimization gradient-descent

4

Wie kann es in einem Sattelpunkt gefangen werden?

Ich bin derzeit ein bisschen verwirrt darüber, wie der Mini-Batch-Gefälle-Abstieg in einem Sattelpunkt gefangen werden kann. Die Lösung könnte zu trivial sein, als dass ich sie nicht verstehe. Sie erhalten in jeder Epoche eine neue Stichprobe und es wird ein neuer Fehler basierend auf einer neuen Charge berechnet, sodass die …

14 gradient-descent sgd

1

Kostenfunktionen für kontextbezogene Banditen

Ich benutze Vowpal Wabbit , um ein kontextuelles Banditenproblem zu lösen . Ich zeige den Nutzern Anzeigen und habe einiges an Informationen über den Kontext, in dem die Anzeige geschaltet wird (z. B. wer der Nutzer ist, auf welcher Website er sich befindet usw.). Dies scheint ein ziemlich klassisches kontextuelles …

14 multinomial gradient-descent multiarmed-bandit vowpal-wabbit contextual-bandit

2

Gradientenabfall vs lm () -Funktion in R?

Ich gehe die Videos in Andrew Ngs kostenlosem Online-Kurs für maschinelles Lernen in Stanford durch. Er beschreibt Gradient Descent als einen Algorithmus zum Lösen linearer Regression und zum Ausführen von Schreibfunktionen in Octave. Vermutlich könnte ich diese Funktionen in R umschreiben, aber meine Frage ist, gibt mir die Funktion lm …

13 r regression machine-learning gradient-descent

1

Warum wird in der Praxis der Abstiegsalgorithmus „Saddle-Free Newton“ nicht verwendet?

Kürzlich habe ich einen Artikel von Yann Dauphin et al. Identifizierung und Angriff auf das Sattelpunktproblem bei der hochdimensionalen nichtkonvexen Optimierung , bei der ein interessanter Abstiegsalgorithmus namens " Sattelfreies Newton" eingeführt wird , der genau auf die Optimierung des neuronalen Netzwerks zugeschnitten zu sein scheint und nicht daran zu …

13 optimization deep-learning gradient-descent

1

Auswahl einer geeigneten Minibatch-Größe für den stochastischen Gradientenabstieg (SGD)

Gibt es Literatur, die die Wahl der Minibatch-Größe bei der Durchführung eines stochastischen Gradientenabfalls untersucht? Nach meiner Erfahrung scheint es sich um eine empirische Entscheidung zu handeln, die normalerweise durch Kreuzvalidierung oder unter Verwendung unterschiedlicher Faustregeln getroffen wird. Ist es eine gute Idee, die Minibatch-Größe langsam zu erhöhen, wenn der …

13 machine-learning gradient-descent hyperparameter deep-learning

5

Warum ist der Gradientenabstieg bei großen Datenmengen ineffizient?

Nehmen wir an, unser Datensatz enthält 1 Million Beispiele, dh , und wir möchten den Gradientenabstieg verwenden, um eine logistische oder lineare Regression für diesen Datensatz durchzuführen.x1,…,x106x1,…,x106x_1, \ldots, x_{10^6} Was macht die Gradientenabstiegsmethode ineffizient? Es sei daran erinnert, dass der Gradientenabstiegsschritt zum Zeitpunkt gegeben ist durch:ttt wt+1=wt+ηt∇f(x)wt+1=wt+ηt∇f(x)w_{t+1} = w_{t} + …

12 machine-learning gradient-descent large-data

2

Gradientenabstieg findet keine Lösung für gewöhnliche kleinste Fehlerquadrate in diesem Datensatz?

Ich habe lineare Regression studiert und es unter der Menge {(x, y)} versucht, wobei x die Fläche des Hauses in Quadratfuß und y den Preis in Dollar angab. Dies ist das erste Beispiel in Andrew Ng Notes . 2104,400 1600,330 2400,369 1416,232 3000,540 Ich habe einen Beispielcode entwickelt, aber wenn …

12 regression least-squares gradient-descent supervised-learning

Als «gradient-descent» getaggte Fragen