Data Science optimization

8

Ich arbeite derzeit an der Implementierung von Stochastic Gradient Descent SGDfür neuronale Netze unter Verwendung von Backpropagation, und obwohl ich den Zweck verstehe, habe ich einige Fragen zur Auswahl von Werten für die Lernrate. Bezieht sich die Lernrate auf die Form des Fehlergradienten, da sie die Abstiegsrate vorgibt? Wenn ja, …

85 machine-learning neural-network deep-learning optimization hyperparameter

4

Sollte ein Modell umgeschult werden, wenn neue Beobachtungen vorliegen?

Daher konnte ich keine Literatur zu diesem Thema finden, aber es scheint sich zu lohnen, darüber nachzudenken: Was sind die Best Practices für Modellbildung und -optimierung, wenn neue Beobachtungen verfügbar sind? Gibt es eine Möglichkeit, den Zeitraum / die Häufigkeit des erneuten Trainings eines Modells zu bestimmen, bevor sich die …

28 machine-learning predictive-modeling optimization training

1

Gibt es Regeln für die Auswahl der Größe einer Mini-Charge?

Beim Training neuronaler Netze ist ein Hyperparameter die Größe eines Minibatches. Übliche Auswahlmöglichkeiten sind 32, 64 und 128 Elemente pro Minibatch. Gibt es irgendwelche Regeln / Richtlinien, wie groß eine Mini-Charge sein sollte? Gibt es Veröffentlichungen, in denen die Auswirkungen auf das Training untersucht werden?

21 neural-network deep-learning convnet optimization

4

Konvergiert der Gefälleverlauf immer zu einem Optimum?

Ich frage mich, ob es ein Szenario gibt, in dem der Gefälle nicht auf ein Minimum konvergiert. Mir ist bewusst, dass der Gradientenabstieg nicht immer garantiert zu einem globalen Optimum konvergiert. Mir ist auch bewusst, dass es von einem Optimum abweichen kann, wenn beispielsweise die Schrittgröße zu groß ist. Es …

20 machine-learning neural-network deep-learning optimization gradient-descent

3

Richtlinien zur Auswahl eines Optimierers für das Training neuronaler Netze

Ich benutze seit einiger Zeit neuronale Netze. Eine Sache, mit der ich ständig zu kämpfen habe, ist die Auswahl eines Optimierers zum Trainieren des Netzwerks (mit Backprop). Normalerweise beginne ich einfach mit einem (zB Standard-SGD) und versuche es dann ziemlich zufällig mit anderen. Ich habe mich gefragt, ob es einen …

18 neural-network optimization backpropagation

2

lokale Minima gegen Sattelpunkte beim Tiefenlernen

Ich hörte Andrew Ng (in einem Video, das ich leider nicht mehr finden kann) darüber sprechen, wie sich das Verständnis der lokalen Minima bei tiefen Lernproblemen dahingehend verändert hat, dass sie jetzt als weniger problematisch angesehen werden, weil sie sich in hochdimensionalen Räumen befinden (auf die man in trifft) Kritische …

18 machine-learning deep-learning optimization convergence

2

Warum werden genetische Algorithmen nicht zur Optimierung neuronaler Netze verwendet?

Nach meinem Verständnis sind genetische Algorithmen leistungsstarke Werkzeuge für die Optimierung mehrerer Ziele. Darüber hinaus ist das Trainieren neuronaler Netze (besonders tiefer Netze) schwierig und mit vielen Problemen verbunden (nicht konvexe Kostenfunktionen - lokale Minima, verschwinden- de und explodierende Gradienten usw.). Ich bin auch der Meinung, dass konzeptionelles Training eines …

13 neural-network optimization genetic-algorithms

4

Ist Gradient Descent für jeden Optimierer von zentraler Bedeutung?

Ich möchte wissen, ob Gradient Descent der Hauptalgorithmus ist, der in Optimierern wie Adam, Adagrad, RMSProp und mehreren anderen Optimierern verwendet wird.

13 machine-learning neural-network deep-learning optimization gradient-descent

2

Warum nicht immer die ADAM-Optimierungstechnik verwenden?

Es scheint, dass der Optimierer für die adaptive Momentschätzung (Adam) fast immer besser funktioniert (schneller und zuverlässiger, wenn ein globales Minimum erreicht wird), wenn die Kostenfunktion beim Trainieren neuronaler Netze minimiert wird. Warum nicht immer Adam benutzen? Warum sollte man sich überhaupt die Mühe machen, RMSProp oder Impulsoptimierer zu verwenden?

13 neural-network optimization

1

Wie viele Features sollen mit Random Forests getestet werden?

Auf der Wikipedia-Seite, die "Die Elemente des statistischen Lernens" zitiert, heißt es: Für ein Klassifizierungsproblem mit Merkmalen gilt in der Regel ⌊ √ppp -Funktionen werden in jeder Aufteilung verwendet.⌊ p-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Ich verstehe, dass dies eine ziemlich gut fundierte Vermutung ist und wahrscheinlich durch empirische Beweise bestätigt wurde, aber gibt …

13 statistics random-forest optimization evaluation sampling

1

Fisher Scoring v / s Koordinatenabstieg für MLE in R.

Die R-Basisfunktion glm()verwendet Fishers Scoring für MLE, während die glmnetanscheinend die Koordinatenabstiegsmethode verwendet, um dieselbe Gleichung zu lösen. Der Koordinatenabstieg ist zeiteffizienter als das Fisher-Scoring, da das Fisher-Scoring zusätzlich zu einigen anderen Matrixoperationen die Ableitungsmatrix zweiter Ordnung berechnet. Dies ist teuer in der Durchführung, während der Koordinatenabstieg dieselbe Aufgabe in …

11 machine-learning r algorithms optimization

3

Beste Sprachen für wissenschaftliches Rechnen [geschlossen]

Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Es scheint, als ob in den meisten Sprachen …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

2

Wann sollte man eine lineare Regression oder eine Entscheidungsbaum- oder eine zufällige Waldregression wählen? [geschlossen]

Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 4 Jahren . Ich arbeite an einem Projekt und habe Schwierigkeiten …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

2

Warum führt die Lernrate dazu, dass die Gewichte meines neuronalen Netzwerks in die Höhe schnellen?

Ich benutze Tensorflow, um einfache neuronale Netze für ein bisschen Forschung zu schreiben, und ich hatte während des Trainings viele Probleme mit 'Nan'-Gewichten. Ich habe viele verschiedene Lösungen ausprobiert, wie das Ändern des Optimierers, das Ändern des Verlusts, der Datengröße usw., aber ohne Erfolg. Schließlich bemerkte ich, dass eine Änderung …

9 machine-learning python tensorflow optimization gradient-descent

2

Kann es bei Advanced Optimization-Algorithmen zu einer Überanpassung kommen?

Während eines Online-Kurses über maschinelles Lernen von Andrew Ng auf coursera stieß ich auf ein Thema namens Überanpassung . Ich weiß, dass es auftreten kann, wenn ein Gradientenabstieg in einer linearen oder logistischen Regression verwendet wird, aber kann es auftreten, wenn erweiterte Optimierungsalgorithmen wie "Gradient konjugieren", "BFGS" und "L-BFGS" verwendet …

8 machine-learning regression optimization gradient-descent overfitting

Als «optimization» getaggte Fragen