Statistiken und Big Data gradient-descent

2

Möglich, GLM in Python / Scikit-Learn mit den Poisson-, Gamma- oder Tweedie-Verteilungen als Familie für die Fehlerverteilung zu bewerten?

Ich versuche, Python und Sklearn zu lernen, aber für meine Arbeit muss ich Regressionen ausführen, die Fehlerverteilungen aus den Familien Poisson, Gamma und insbesondere Tweedie verwenden. Ich sehe nichts in der Dokumentation darüber, aber sie befinden sich in mehreren Teilen der R-Distribution. Ich habe mich gefragt, ob jemand irgendwo Implementierungen …

12 generalized-linear-model python scikit-learn gradient-descent tweedie-distribution

1

Was bedeutet "Vanille"?

In maschinellen Lernblogs begegne ich häufig dem Wort "Vanille". Zum Beispiel "Vanilla Gradient Descent" oder "Vanilla Method". Dieser Begriff wird in Optimierungslehrbüchern buchstäblich nie verwendet. In diesem Beitrag heißt es beispielsweise: Dies ist die einfachste Form der Gradientenabstiegstechnik. Vanille bedeutet hier rein / ohne Verfälschung. Sein Hauptmerkmal ist, dass wir …

12 machine-learning optimization terminology gradient-descent

2

Wie aktualisiert der Minibatch-Gradientenabstieg die Gewichte für jedes Beispiel in einem Stapel?

Wenn wir beispielsweise 10 Beispiele in einem Stapel verarbeiten, können wir meines Erachtens den Verlust für jedes Beispiel summieren. Wie funktioniert die Rückausbreitung in Bezug auf die Aktualisierung der Gewichte für jedes Beispiel? Beispielsweise: Beispiel 1 -> Verlust = 2 Beispiel 2 -> Verlust = -2 Dies führt zu einem …

11 neural-networks gradient-descent backpropagation tensorflow

1

Gradient für die logistische Verlustfunktion

Ich würde eine Frage zu diesem Thema stellen . Ich habe hier ein Beispiel für das Schreiben einer benutzerdefinierten Verlustfunktion für xgboost gefunden : loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- …

11 r machine-learning gradient-descent boosting loss-functions

2

Beziehen sich verbleibende Netzwerke auf die Erhöhung des Gradienten?

Kürzlich haben wir die Entstehung des verbleibenden neuronalen Netzes gesehen, bei dem jede Schicht aus einem Rechenmodul cicic_i und einer Verknüpfungsverbindung besteht, die die Eingabe in die Schicht beibehält, wie die Ausgabe der i-ten Schicht zeigt: yi+1=ci+yiyi+1=ci+yi y_{i+1} = c_i + y_i Das Netzwerk ermöglicht das Extrahieren von Restmerkmalen und …

11 machine-learning neural-networks deep-learning gradient-descent residual-networks

1

R / mgcv: Warum produzieren te () und ti () Tensorprodukte unterschiedliche Oberflächen?

Das mgcvPaket für Rhat zwei Funktionen zum Anpassen von Tensorproduktwechselwirkungen: te()und ti(). Ich verstehe die grundlegende Arbeitsteilung zwischen den beiden (Anpassen einer nichtlinearen Wechselwirkung vs. Zerlegen dieser Wechselwirkung in Haupteffekte und eine Wechselwirkung). Was ich nicht verstehe, ist warum te(x1, x2)und ti(x1) + ti(x2) + ti(x1, x2)kann (leicht) unterschiedliche Ergebnisse …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

4

Wann wird der Gradientenabstieg gegenüber Monte Carlo als numerische Optimierungstechnik verwendet?

Wenn ein Satz von Gleichungen nicht analytisch gelöst werden kann, können wir einen Gradientenabstiegsalgorithmus verwenden. Es scheint aber auch die Methode der Monte-Carlo-Simulation zu geben, mit der Probleme gelöst werden können, für die es keine analytischen Lösungen gibt. Wie kann man feststellen, wann man den Gradientenabstieg verwendet und wann man …

11 monte-carlo gradient-descent

2

Wie trainiere ich eine SVM über Backpropagation?

Ich habe mich gefragt, ob es möglich ist, eine SVM (sagen wir eine lineare, um die Sache zu vereinfachen) mit Backpropagation zu trainieren. Derzeit bin ich an einer Straßensperre, weil ich nur daran denken kann, die Ausgabe des Klassifikators als zu schreiben f( x ; θ , b ) = …

10 machine-learning neural-networks svm gradient-descent backpropagation

1

Kann ein Modell von P (Y | X) durch stochastischen Gradientenabstieg von nicht-iid-Proben von P (X) und iid-Proben von P (Y | X) trainiert werden?

Beim Trainieren eines parametrisierten Modells (z. B. zur Maximierung der Wahrscheinlichkeit) über einen stochastischen Gradientenabstieg in einem Datensatz wird üblicherweise angenommen, dass die Trainingsmuster aus der Trainingsdatenverteilung entnommen werden. Wenn das Ziel darin besteht, eine gemeinsame Verteilung zu modellieren , sollte jede Trainingsprobe aus dieser Verteilung gezogen werden.P(X,Y)P(X,Y)P(X,Y)(xi,yi)(xi,yi)(x_i,y_i) Wenn das …

10 machine-learning conditional-probability reinforcement-learning gradient-descent

2

So stellen Sie die Mini-Batch-Größe in SGD in Keras ein

Ich bin neu bei Keras und brauche deine Hilfe. Ich trainiere ein neuronales Netz in Keras und meine Verlustfunktion ist die Quadrat-Differenz s / w-Netzleistung und der Zielwert. Ich möchte dies mit Gradient Descent optimieren. Nachdem ich einige Links im Internet durchgesehen habe, habe ich festgestellt, dass es drei Arten …

10 neural-networks python gradient-descent keras sgd

2

Markov-Kette Monte Carlo (MCMC) für Maximum Likelihood Estimation (MLE)

Ich lese ein Konferenzpapier von Geyer aus dem Jahr 1991, das unten verlinkt ist. Darin scheint er sich einer Methode zu entziehen, die MCMC für die MLE-Parameterschätzung verwenden kann Dies reizt mich, da ich BFGS-Algorithmen, GAs und alle Arten dieser schrecklichen handgewellten Lucky-Dip- Methoden codiert habe , um globale Minima …

10 maximum-likelihood mcmc gradient-descent minimum

4

Optimierung des Gefälles

Ich versuche, die Gradientenabstiegsoptimierung in ML-Algorithmen (Machine Learning) zu verstehen. Ich verstehe , dass es eine Kostenfunktion-wo das Ziel ist , den Fehler zu minimieren . In einem Szenario, in dem die Gewichte optimiert werden, um den minimalen Fehler zu ergeben, und partielle Ableitungen verwendet werden, ändert sich in jedem …

9 optimization gradient-descent

2

Warum werden meine Schritte kleiner, wenn beim Steigungsabstieg eine feste Schrittgröße verwendet wird?

Angenommen, wir machen ein Spielzeugbeispiel für einen anständigen Gradienten, bei dem eine quadratische Funktion unter Verwendung der festen Schrittgröße minimiert wird . ( )α = 0,03xT.A xxT.EINxx^TAxα = 0,03α=0,03\alpha=0.03A = [ 10 , 2 ; 2 , 3 ]EIN=[10,2;;2,3]]A=[10, 2; 2, 3] Wenn wir die Spur von in jeder Iteration …

9 r machine-learning optimization gradient-descent

1

Warum proximaler Gradientenabstieg anstelle einfacher Subgradientenmethoden für Lasso?

Ich dachte daran, Lasso mit Vanille-Subgradienten-Methoden zu lösen. Aber ich habe Leute gelesen, die vorschlagen, den proximalen Gradientenabstieg zu verwenden. Kann jemand hervorheben, warum für Lasso proximale GD anstelle von Vanille-Subgradienten-Methoden verwendet werden?

9 machine-learning optimization lasso gradient-descent

1

Wie erhöht sich der Gradient wie der Gradientenabstieg?

Ich lese den nützlichen Wikipedia-Eintrag zum Gradienten-Boosting ( https://en.wikipedia.org/wiki/Gradient_boosting ) und versuche zu verstehen, wie / warum wir die Residuen durch den steilsten Abstiegsschritt (auch Pseudo-Gradient genannt) approximieren können ). Kann mir jemand die Intuition geben, wie der steilste Abstieg mit den Residuen verbunden / ähnlich ist? Hilfe sehr geschätzt!

9 self-study gradient-descent

Als «gradient-descent» getaggte Fragen