Als «gradient-descent» getaggte Fragen

Der Gradientenabstieg ist ein iterativer Optimierungsalgorithmus erster Ordnung. Um ein lokales Minimum einer Funktion unter Verwendung eines Gradientenabfalls zu finden, werden Schritte ausgeführt, die proportional zum Negativ des Gradienten (oder des ungefähren Gradienten) der Funktion am aktuellen Punkt sind. Für den stochastischen Gradientenabstieg gibt es auch das [sgd] -Tag.

2
Möglich, GLM in Python / Scikit-Learn mit den Poisson-, Gamma- oder Tweedie-Verteilungen als Familie für die Fehlerverteilung zu bewerten?
Ich versuche, Python und Sklearn zu lernen, aber für meine Arbeit muss ich Regressionen ausführen, die Fehlerverteilungen aus den Familien Poisson, Gamma und insbesondere Tweedie verwenden. Ich sehe nichts in der Dokumentation darüber, aber sie befinden sich in mehreren Teilen der R-Distribution. Ich habe mich gefragt, ob jemand irgendwo Implementierungen …

1
Was bedeutet "Vanille"?
In maschinellen Lernblogs begegne ich häufig dem Wort "Vanille". Zum Beispiel "Vanilla Gradient Descent" oder "Vanilla Method". Dieser Begriff wird in Optimierungslehrbüchern buchstäblich nie verwendet. In diesem Beitrag heißt es beispielsweise: Dies ist die einfachste Form der Gradientenabstiegstechnik. Vanille bedeutet hier rein / ohne Verfälschung. Sein Hauptmerkmal ist, dass wir …

2
Wie aktualisiert der Minibatch-Gradientenabstieg die Gewichte für jedes Beispiel in einem Stapel?
Wenn wir beispielsweise 10 Beispiele in einem Stapel verarbeiten, können wir meines Erachtens den Verlust für jedes Beispiel summieren. Wie funktioniert die Rückausbreitung in Bezug auf die Aktualisierung der Gewichte für jedes Beispiel? Beispielsweise: Beispiel 1 -> Verlust = 2 Beispiel 2 -> Verlust = -2 Dies führt zu einem …


2
Beziehen sich verbleibende Netzwerke auf die Erhöhung des Gradienten?
Kürzlich haben wir die Entstehung des verbleibenden neuronalen Netzes gesehen, bei dem jede Schicht aus einem Rechenmodul cicic_i und einer Verknüpfungsverbindung besteht, die die Eingabe in die Schicht beibehält, wie die Ausgabe der i-ten Schicht zeigt: yi+1=ci+yiyi+1=ci+yi y_{i+1} = c_i + y_i Das Netzwerk ermöglicht das Extrahieren von Restmerkmalen und …

1
R / mgcv: Warum produzieren te () und ti () Tensorprodukte unterschiedliche Oberflächen?
Das mgcvPaket für Rhat zwei Funktionen zum Anpassen von Tensorproduktwechselwirkungen: te()und ti(). Ich verstehe die grundlegende Arbeitsteilung zwischen den beiden (Anpassen einer nichtlinearen Wechselwirkung vs. Zerlegen dieser Wechselwirkung in Haupteffekte und eine Wechselwirkung). Was ich nicht verstehe, ist warum te(x1, x2)und ti(x1) + ti(x2) + ti(x1, x2)kann (leicht) unterschiedliche Ergebnisse …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

4
Wann wird der Gradientenabstieg gegenüber Monte Carlo als numerische Optimierungstechnik verwendet?
Wenn ein Satz von Gleichungen nicht analytisch gelöst werden kann, können wir einen Gradientenabstiegsalgorithmus verwenden. Es scheint aber auch die Methode der Monte-Carlo-Simulation zu geben, mit der Probleme gelöst werden können, für die es keine analytischen Lösungen gibt. Wie kann man feststellen, wann man den Gradientenabstieg verwendet und wann man …


1
Kann ein Modell von P (Y | X) durch stochastischen Gradientenabstieg von nicht-iid-Proben von P (X) und iid-Proben von P (Y | X) trainiert werden?
Beim Trainieren eines parametrisierten Modells (z. B. zur Maximierung der Wahrscheinlichkeit) über einen stochastischen Gradientenabstieg in einem Datensatz wird üblicherweise angenommen, dass die Trainingsmuster aus der Trainingsdatenverteilung entnommen werden. Wenn das Ziel darin besteht, eine gemeinsame Verteilung zu modellieren , sollte jede Trainingsprobe aus dieser Verteilung gezogen werden.P(X,Y)P(X,Y)P(X,Y)(xi,yi)(xi,yi)(x_i,y_i) Wenn das …



4
Optimierung des Gefälles
Ich versuche, die Gradientenabstiegsoptimierung in ML-Algorithmen (Machine Learning) zu verstehen. Ich verstehe , dass es eine Kostenfunktion-wo das Ziel ist , den Fehler zu minimieren . In einem Szenario, in dem die Gewichte optimiert werden, um den minimalen Fehler zu ergeben, und partielle Ableitungen verwendet werden, ändert sich in jedem …



1
Wie erhöht sich der Gradient wie der Gradientenabstieg?
Ich lese den nützlichen Wikipedia-Eintrag zum Gradienten-Boosting ( https://en.wikipedia.org/wiki/Gradient_boosting ) und versuche zu verstehen, wie / warum wir die Residuen durch den steilsten Abstiegsschritt (auch Pseudo-Gradient genannt) approximieren können ). Kann mir jemand die Intuition geben, wie der steilste Abstieg mit den Residuen verbunden / ähnlich ist? Hilfe sehr geschätzt!

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.