Statistiken und Big Data optimization

2

Warum machen wir viel Aufhebens um die Verwendung von Fisher Scoring, wenn wir ein GLM anpassen?

Ich bin gespannt, warum wir GLMS-Anpassungen so behandeln, als wären sie ein spezielles Optimierungsproblem. Sind sie? Es scheint mir, dass sie nur maximale Wahrscheinlichkeit sind und dass wir die Wahrscheinlichkeit aufschreiben und dann ... maximieren wir sie! Warum verwenden wir Fisher-Scoring anstelle der unzähligen Optimierungsschemata, die in der angewandten Mathematikliteratur …

16 generalized-linear-model optimization fisher-scoring

2

Was ist der Unterschied zwischen Maximum Likelihood Estimation und Gradient Descent?

Was sind die Vor- und Nachteile beider Methoden?

16 maximum-likelihood predictive-models optimization gradient-descent

1

Warum unterscheidet sich das „entspannte Lasso“ vom Standard-Lasso?

Wenn wir mit einer Datenmenge , Lasso anwenden und eine Lösung β L erhalten , können wir Lasso erneut auf die Datenmenge ( X S , Y ) anwenden , wobei S die Menge ungleich Null ist Indizes von β L , um eine Lösung zu erhalten , β R …

16 regression optimization lasso regularization shrinkage

1

Hat die Protokollwahrscheinlichkeit in GLM die Konvergenz zu globalen Maxima garantiert?

Meine Fragen sind: Werden generalisierte lineare Modelle (GLMs) garantiert zu einem globalen Maximum konvergieren? Wenn ja warum? Welche Einschränkungen gibt es für die Verbindungsfunktion, um die Konvexität sicherzustellen? Mein Verständnis von GLMs ist, dass sie eine hochgradig nichtlineare Wahrscheinlichkeitsfunktion maximieren. Daher würde ich mir vorstellen, dass es mehrere lokale Maxima …

16 generalized-linear-model optimization convergence exponential-family

2

Warum ist die Maximierung der Erwartungen für Mischmodelle wichtig?

Es gibt viele Literaturstellen, in denen die Expectation Maximization-Methode für Mischmodelle (Mischung aus Gauß-Modell, Hidden-Markov-Modell usw.) im Vordergrund steht. Warum ist EM wichtig? EM ist nur eine Möglichkeit zur Optimierung und wird nicht häufig als gradientenbasierte Methode (Gradient Decent oder Newton's / Quasi-Newton-Methode) oder als andere gradientenfreie Methode verwendet, die …

15 machine-learning optimization expectation-maximization gaussian-mixture

1

Wie kann der stochastische Gradientenabstieg im Vergleich zum normalen Gradientenabstieg Zeit sparen?

Standardgradientenabstieg berechnet den Gradienten für den gesamten Trainingsdatensatz. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Für eine vordefinierte Anzahl von Epochen berechnen wir zunächst den Gradientenvektor Weight_Grad der Verlustfunktion für den gesamten Datensatz mit unseren Parametervektorparametern. Im Gegensatz dazu führt der …

15 machine-learning optimization gradient-descent computational-statistics sgd

1

Erläuterung der Implementierung von Perceptron-Regel vs. Gradient Descent vs. Stochastic Gradient Descent

Ich habe ein wenig mit verschiedenen Perceptron-Implementierungen experimentiert und möchte sicherstellen, dass ich die "Iterationen" richtig verstehe. Rosenblatts ursprüngliche Perzeptronregel Soweit ich weiß, werden bei Rosenblatts klassischem Perzeptron-Algorithmus die Gewichte nach jedem Trainingsbeispiel gleichzeitig über aktualisiert Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i wo hier die ist. Und sowohl Ziel …

15 optimization gradient-descent perceptron

2

ARIMA-Schätzung von Hand

Ich versuche zu verstehen, wie die Parameter in ARIMA-Modellierung / Box Jenkins (BJ) geschätzt werden. Leider beschreibt keines der Bücher, auf die ich gestoßen bin, das Schätzverfahren wie das Log-Likelihood-Schätzverfahren im Detail. Ich fand die Website / das Lehrmaterial sehr hilfreich. Es folgt die oben angegebene Gleichung aus der Quelle. …

15 time-series forecasting arima optimization box-jenkins

2

Wie wählt man den richtigen Optimierungsalgorithmus?

Ich muss das Minimum einer Funktion finden. Wenn ich die Dokumente unter http://docs.scipy.org/doc/scipy/reference/optimize.html lese, sehe ich, dass es mehrere Algorithmen gibt, die dasselbe tun, dh das Minimum finden. Woher weiß ich, welches ich wählen soll? Einige der aufgelisteten Algorithmen Minimieren Sie eine Funktion mit dem Downhill-Simplex-Algorithmus. Minimieren Sie eine Funktion …

15 optimization

1

Wie vermeiden CNNs das Problem des verschwindenden Gradienten?

Ich habe viel über gewundene neuronale Netze gelesen und mich gefragt, wie sie das Problem des verschwindenden Gradienten vermeiden. Ich weiß, dass Deep-Believe-Netzwerke Single-Level-Auto-Encoder oder andere vorgefertigte flache Netzwerke stapeln und so dieses Problem vermeiden können, aber ich weiß nicht, wie es in CNNs vermieden wird. Laut Wikipedia : "Trotz …

15 machine-learning optimization deep-learning gradient-descent

1

Warum kann ich die Ausgabe von glmer (family = binomial) nicht mit der manuellen Implementierung des Gauss-Newton-Algorithmus abgleichen?

Ich möchte die Ausgaben von lmer (wirklich glmer) mit einem Spielzeugbinomialbeispiel abgleichen. Ich habe die Vignetten gelesen und glaube zu verstehen, was los ist. Aber anscheinend mache ich nicht. Nachdem ich stecken geblieben war, habe ich die "Wahrheit" in Bezug auf die zufälligen Effekte korrigiert und mich nur um die …

15 r mixed-model optimization lme4-nlme

1

Warum kann eine einzelne ReLU keine ReLU lernen?

Als Folge dessen, dass mein neuronales Netzwerk nicht einmal die euklidische Distanz lernen kann, vereinfachte ich noch mehr und versuchte, eine einzelne ReLU (mit zufälliger Gewichtung) zu einer einzelnen ReLU zu trainieren. Dies ist das einfachste Netzwerk, das es gibt, und dennoch scheitert die Konvergenz in der Hälfte der Zeit. …

15 machine-learning neural-networks optimization keras

3

Unterschied bei der Verwendung von normalisiertem Farbverlauf und Farbverlauf

Im allgemeinen Einstellung des Gradientenabstiegsalgorithmus haben wir wobei x n ist der aktuelle Punkt, η ist die Schrittgröße und g r a d i e n t x n ist der bei x n bewertete Gradient . xn+1=xn−η∗gradientxnxn+1=xn−η∗gradientxnx_{n+1} = x_{n} - \eta * gradient_{x_n}xnxnx_nηη\etagradientxngradientxngradient_{x_n}xnxnx_n Ich habe in einigen Algorithmen gesehen, …

15 algorithms optimization

1

Warum verwenden wir nicht konstante Lernraten für anständige Gradienten für andere Dinge als neuronale Netze?

Deep-Learning-Literatur steckt voller cleverer Tricks bei der Verwendung nicht konstanter Lernraten beim Gradientenabstieg. Dinge wie Exponential Decay, RMSprop, Adagrad usw. sind einfach zu implementieren und in jedem Deep-Learning-Paket verfügbar, scheinen jedoch außerhalb neuronaler Netze nicht zu existieren. Gibt es einen Grund dafür? Wenn es den Menschen einfach egal ist, gibt …

14 machine-learning deep-learning optimization gradient-descent

1

Eingeschränkte maximale Wahrscheinlichkeit mit weniger als dem vollen Spaltenrang von

Diese Frage befasst sich mit der eingeschränkten Maximalwahrscheinlichkeitsschätzung (REML) in einer bestimmten Version des linearen Modells, nämlich: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), Wobei eine durch ; parametrisierte ( ) Matrix ist , wie auch . ist ein unbekannter Vektor von Störparametern; das Interesse liegt in …

14 mixed-model maximum-likelihood linear-model optimization reml

Als «optimization» getaggte Fragen