Als «optimization» getaggte Fragen

Verwenden Sie dieses Tag für jede Verwendung der Optimierung in Statistiken.

2
Warum machen wir viel Aufhebens um die Verwendung von Fisher Scoring, wenn wir ein GLM anpassen?
Ich bin gespannt, warum wir GLMS-Anpassungen so behandeln, als wären sie ein spezielles Optimierungsproblem. Sind sie? Es scheint mir, dass sie nur maximale Wahrscheinlichkeit sind und dass wir die Wahrscheinlichkeit aufschreiben und dann ... maximieren wir sie! Warum verwenden wir Fisher-Scoring anstelle der unzähligen Optimierungsschemata, die in der angewandten Mathematikliteratur …



1
Hat die Protokollwahrscheinlichkeit in GLM die Konvergenz zu globalen Maxima garantiert?
Meine Fragen sind: Werden generalisierte lineare Modelle (GLMs) garantiert zu einem globalen Maximum konvergieren? Wenn ja warum? Welche Einschränkungen gibt es für die Verbindungsfunktion, um die Konvexität sicherzustellen? Mein Verständnis von GLMs ist, dass sie eine hochgradig nichtlineare Wahrscheinlichkeitsfunktion maximieren. Daher würde ich mir vorstellen, dass es mehrere lokale Maxima …

2
Warum ist die Maximierung der Erwartungen für Mischmodelle wichtig?
Es gibt viele Literaturstellen, in denen die Expectation Maximization-Methode für Mischmodelle (Mischung aus Gauß-Modell, Hidden-Markov-Modell usw.) im Vordergrund steht. Warum ist EM wichtig? EM ist nur eine Möglichkeit zur Optimierung und wird nicht häufig als gradientenbasierte Methode (Gradient Decent oder Newton's / Quasi-Newton-Methode) oder als andere gradientenfreie Methode verwendet, die …

1
Wie kann der stochastische Gradientenabstieg im Vergleich zum normalen Gradientenabstieg Zeit sparen?
Standardgradientenabstieg berechnet den Gradienten für den gesamten Trainingsdatensatz. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Für eine vordefinierte Anzahl von Epochen berechnen wir zunächst den Gradientenvektor Weight_Grad der Verlustfunktion für den gesamten Datensatz mit unseren Parametervektorparametern. Im Gegensatz dazu führt der …

1
Erläuterung der Implementierung von Perceptron-Regel vs. Gradient Descent vs. Stochastic Gradient Descent
Ich habe ein wenig mit verschiedenen Perceptron-Implementierungen experimentiert und möchte sicherstellen, dass ich die "Iterationen" richtig verstehe. Rosenblatts ursprüngliche Perzeptronregel Soweit ich weiß, werden bei Rosenblatts klassischem Perzeptron-Algorithmus die Gewichte nach jedem Trainingsbeispiel gleichzeitig über aktualisiert Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i wo hier die ist. Und sowohl Ziel …

2
ARIMA-Schätzung von Hand
Ich versuche zu verstehen, wie die Parameter in ARIMA-Modellierung / Box Jenkins (BJ) geschätzt werden. Leider beschreibt keines der Bücher, auf die ich gestoßen bin, das Schätzverfahren wie das Log-Likelihood-Schätzverfahren im Detail. Ich fand die Website / das Lehrmaterial sehr hilfreich. Es folgt die oben angegebene Gleichung aus der Quelle. …

2
Wie wählt man den richtigen Optimierungsalgorithmus?
Ich muss das Minimum einer Funktion finden. Wenn ich die Dokumente unter http://docs.scipy.org/doc/scipy/reference/optimize.html lese, sehe ich, dass es mehrere Algorithmen gibt, die dasselbe tun, dh das Minimum finden. Woher weiß ich, welches ich wählen soll? Einige der aufgelisteten Algorithmen Minimieren Sie eine Funktion mit dem Downhill-Simplex-Algorithmus. Minimieren Sie eine Funktion …

1
Wie vermeiden CNNs das Problem des verschwindenden Gradienten?
Ich habe viel über gewundene neuronale Netze gelesen und mich gefragt, wie sie das Problem des verschwindenden Gradienten vermeiden. Ich weiß, dass Deep-Believe-Netzwerke Single-Level-Auto-Encoder oder andere vorgefertigte flache Netzwerke stapeln und so dieses Problem vermeiden können, aber ich weiß nicht, wie es in CNNs vermieden wird. Laut Wikipedia : "Trotz …

1
Warum kann ich die Ausgabe von glmer (family = binomial) nicht mit der manuellen Implementierung des Gauss-Newton-Algorithmus abgleichen?
Ich möchte die Ausgaben von lmer (wirklich glmer) mit einem Spielzeugbinomialbeispiel abgleichen. Ich habe die Vignetten gelesen und glaube zu verstehen, was los ist. Aber anscheinend mache ich nicht. Nachdem ich stecken geblieben war, habe ich die "Wahrheit" in Bezug auf die zufälligen Effekte korrigiert und mich nur um die …


3
Unterschied bei der Verwendung von normalisiertem Farbverlauf und Farbverlauf
Im allgemeinen Einstellung des Gradientenabstiegsalgorithmus haben wir wobei x n ist der aktuelle Punkt, η ist die Schrittgröße und g r a d i e n t x n ist der bei x n bewertete Gradient . xn+1=xn−η∗gradientxnxn+1=xn−η∗gradientxnx_{n+1} = x_{n} - \eta * gradient_{x_n}xnxnx_nηη\etagradientxngradientxngradient_{x_n}xnxnx_n Ich habe in einigen Algorithmen gesehen, …

1
Warum verwenden wir nicht konstante Lernraten für anständige Gradienten für andere Dinge als neuronale Netze?
Deep-Learning-Literatur steckt voller cleverer Tricks bei der Verwendung nicht konstanter Lernraten beim Gradientenabstieg. Dinge wie Exponential Decay, RMSprop, Adagrad usw. sind einfach zu implementieren und in jedem Deep-Learning-Paket verfügbar, scheinen jedoch außerhalb neuronaler Netze nicht zu existieren. Gibt es einen Grund dafür? Wenn es den Menschen einfach egal ist, gibt …

1
Eingeschränkte maximale Wahrscheinlichkeit mit weniger als dem vollen Spaltenrang von
Diese Frage befasst sich mit der eingeschränkten Maximalwahrscheinlichkeitsschätzung (REML) in einer bestimmten Version des linearen Modells, nämlich: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), Wobei eine durch ; parametrisierte ( ) Matrix ist , wie auch . ist ein unbekannter Vektor von Störparametern; das Interesse liegt in …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.