Als «gradient-descent» getaggte Fragen

Gradient Descent ist ein Algorithmus zum Ermitteln des Minimums einer Funktion. Es berechnet iterativ partielle Ableitungen (Gradienten) der Funktion und steigt in Schritten ab, die proportional zu diesen partiellen Ableitungen sind. Eine Hauptanwendung von Gradient Descent ist das Anpassen eines parametrisierten Modells an einen Datensatz: Die zu minimierende Funktion ist eine Fehlerfunktion für das Modell.

4
Scikit-Learn: SGDClassifier dazu bringen, eine logistische Regression vorherzusagen
Eine Möglichkeit, eine logistische Regression zu trainieren, besteht in der Verwendung einer stochastischen Gradientenabnahme, zu der scikit-learn eine Schnittstelle bietet. Was ich möchte , ist zu tun , nehmen Sie einen Scikit-Learn des SGDClassifier und haben sie das gleiche wie eine logistische Regression punkten hier . Ich muss jedoch einige …



1
Warum ReLU besser ist als die anderen Aktivierungsfunktionen
Hier bezieht sich die Antwort auf das Verschwinden und Explodieren von Verläufen, die sigmoidähnliche Aktivierungsfunktionen hatten, aber Relueinen Nachteil haben und deren erwarteter Wert sind. Es gibt keine Begrenzung für die Ausgabe von Reluund daher ist der erwartete Wert nicht Null. Ich erinnere mich an die Zeit vor der Popularität …


1
Wie viele LSTM-Zellen soll ich verwenden?
Gibt es Faustregeln (oder tatsächliche Regeln) für die minimale, maximale und "angemessene" Anzahl von LSTM-Zellen, die ich verwenden sollte? Insbesondere beziehe ich mich auf BasicLSTMCell von TensorFlow und num_unitsEigenschaft. Bitte nehmen Sie an, dass ich ein Klassifizierungsproblem habe, das definiert ist durch: t - number of time steps n - …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 


1
Wie flexibel ist die Verbindung zwischen Zielfunktion und Aktivierungsfunktion der Ausgangsschicht?
In vielen neuronalen Netzwerkpaketen scheint es Standard zu sein, die zu minimierende Zielfunktion mit der Aktivierungsfunktion in der Ausgabeschicht zu koppeln. Zum Beispiel ist es für eine lineare Ausgabeschicht, die für die Regression verwendet wird, Standard (und oft nur die Wahl), eine quadratische Fehlerzielfunktion zu haben. Eine andere übliche Paarung …

2
Stochastischer Gradientenabstieg basierend auf Vektoroperationen?
Nehmen wir an, ich möchte einen stochastischen Regressionsalgorithmus für den Gradientenabstieg unter Verwendung eines Datensatzes mit N Stichproben trainieren. Da die Größe des Datensatzes festgelegt ist, werde ich die Daten T-mal wiederverwenden. Bei jeder Iteration oder "Epoche" verwende ich jedes Trainingsmuster genau einmal, nachdem ich den gesamten Trainingssatz zufällig neu …

2
Warum führt die Lernrate dazu, dass die Gewichte meines neuronalen Netzwerks in die Höhe schnellen?
Ich benutze Tensorflow, um einfache neuronale Netze für ein bisschen Forschung zu schreiben, und ich hatte während des Trainings viele Probleme mit 'Nan'-Gewichten. Ich habe viele verschiedene Lösungen ausprobiert, wie das Ändern des Optimierers, das Ändern des Verlusts, der Datengröße usw., aber ohne Erfolg. Schließlich bemerkte ich, dass eine Änderung …

1
Grundlegendes zu Ausfall und Gefälle
Ich schaue mir an, wie man Dropout in einem tiefen neuronalen Netzwerk implementiert, und fand etwas, das nicht intuitiv ist. In der Vorwärtsphase fallen Dropout-Maskenaktivierungen mit einem zufälligen Tensor von 1s und 0s an, um das Netz zu zwingen, den Durchschnitt der Gewichte zu lernen. Dies hilft dem Netz, besser …

2
Die Mathematik von AdaGrad und AdaDelta verstehen
Ich habe einige Modelle für ein Projekt erstellt, aber ich kann mich nicht mit der Mathematik der Adagrad- und Adadelta-Algorithmen befassen. Ich verstehe, wie Vanille-Gradienten-Abstieg funktioniert, und ich habe Code geschrieben, damit er erfolgreich funktioniert. Ich wäre dankbar, wenn mir jemand diese beiden Dinge erklären oder eine Ressource bereitstellen würde, …

2
Kann es bei Advanced Optimization-Algorithmen zu einer Überanpassung kommen?
Während eines Online-Kurses über maschinelles Lernen von Andrew Ng auf coursera stieß ich auf ein Thema namens Überanpassung . Ich weiß, dass es auftreten kann, wenn ein Gradientenabstieg in einer linearen oder logistischen Regression verwendet wird, aber kann es auftreten, wenn erweiterte Optimierungsalgorithmen wie "Gradient konjugieren", "BFGS" und "L-BFGS" verwendet …

1
Implementierung des stochastischen Gradientenabfalls in Python
Ich versuche, einen grundlegenden stochastischen Gradientenabstiegsalgorithmus für eine lineare 2D-Regression in Python zu implementieren. Ich habe einen Boilerplate-Code für Vanilla GD erhalten und versucht, ihn für SGD zu konvertieren. Insbesondere - ich bin mir ein wenig unsicher, ob ich die Verlustfunktion und partielle Ableitungen korrekt implementiert habe, da ich mit …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.