Ich bin gespannt, warum wir GLMS-Anpassungen so behandeln, als wären sie ein spezielles Optimierungsproblem. Sind sie? Es scheint mir, dass sie nur maximale Wahrscheinlichkeit sind und dass wir die Wahrscheinlichkeit aufschreiben und dann ... maximieren wir sie! Warum verwenden wir Fisher-Scoring anstelle der unzähligen Optimierungsschemata, die in der angewandten Mathematikliteratur …
Wenn wir mit einer Datenmenge , Lasso anwenden und eine Lösung β L erhalten , können wir Lasso erneut auf die Datenmenge ( X S , Y ) anwenden , wobei S die Menge ungleich Null ist Indizes von β L , um eine Lösung zu erhalten , β R …
Meine Fragen sind: Werden generalisierte lineare Modelle (GLMs) garantiert zu einem globalen Maximum konvergieren? Wenn ja warum? Welche Einschränkungen gibt es für die Verbindungsfunktion, um die Konvexität sicherzustellen? Mein Verständnis von GLMs ist, dass sie eine hochgradig nichtlineare Wahrscheinlichkeitsfunktion maximieren. Daher würde ich mir vorstellen, dass es mehrere lokale Maxima …
Es gibt viele Literaturstellen, in denen die Expectation Maximization-Methode für Mischmodelle (Mischung aus Gauß-Modell, Hidden-Markov-Modell usw.) im Vordergrund steht. Warum ist EM wichtig? EM ist nur eine Möglichkeit zur Optimierung und wird nicht häufig als gradientenbasierte Methode (Gradient Decent oder Newton's / Quasi-Newton-Methode) oder als andere gradientenfreie Methode verwendet, die …
Standardgradientenabstieg berechnet den Gradienten für den gesamten Trainingsdatensatz. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Für eine vordefinierte Anzahl von Epochen berechnen wir zunächst den Gradientenvektor Weight_Grad der Verlustfunktion für den gesamten Datensatz mit unseren Parametervektorparametern. Im Gegensatz dazu führt der …
Ich habe ein wenig mit verschiedenen Perceptron-Implementierungen experimentiert und möchte sicherstellen, dass ich die "Iterationen" richtig verstehe. Rosenblatts ursprüngliche Perzeptronregel Soweit ich weiß, werden bei Rosenblatts klassischem Perzeptron-Algorithmus die Gewichte nach jedem Trainingsbeispiel gleichzeitig über aktualisiert Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i wo hier die ist. Und sowohl Ziel …
Ich versuche zu verstehen, wie die Parameter in ARIMA-Modellierung / Box Jenkins (BJ) geschätzt werden. Leider beschreibt keines der Bücher, auf die ich gestoßen bin, das Schätzverfahren wie das Log-Likelihood-Schätzverfahren im Detail. Ich fand die Website / das Lehrmaterial sehr hilfreich. Es folgt die oben angegebene Gleichung aus der Quelle. …
Ich muss das Minimum einer Funktion finden. Wenn ich die Dokumente unter http://docs.scipy.org/doc/scipy/reference/optimize.html lese, sehe ich, dass es mehrere Algorithmen gibt, die dasselbe tun, dh das Minimum finden. Woher weiß ich, welches ich wählen soll? Einige der aufgelisteten Algorithmen Minimieren Sie eine Funktion mit dem Downhill-Simplex-Algorithmus. Minimieren Sie eine Funktion …
Ich habe viel über gewundene neuronale Netze gelesen und mich gefragt, wie sie das Problem des verschwindenden Gradienten vermeiden. Ich weiß, dass Deep-Believe-Netzwerke Single-Level-Auto-Encoder oder andere vorgefertigte flache Netzwerke stapeln und so dieses Problem vermeiden können, aber ich weiß nicht, wie es in CNNs vermieden wird. Laut Wikipedia : "Trotz …
Ich möchte die Ausgaben von lmer (wirklich glmer) mit einem Spielzeugbinomialbeispiel abgleichen. Ich habe die Vignetten gelesen und glaube zu verstehen, was los ist. Aber anscheinend mache ich nicht. Nachdem ich stecken geblieben war, habe ich die "Wahrheit" in Bezug auf die zufälligen Effekte korrigiert und mich nur um die …
Als Folge dessen, dass mein neuronales Netzwerk nicht einmal die euklidische Distanz lernen kann, vereinfachte ich noch mehr und versuchte, eine einzelne ReLU (mit zufälliger Gewichtung) zu einer einzelnen ReLU zu trainieren. Dies ist das einfachste Netzwerk, das es gibt, und dennoch scheitert die Konvergenz in der Hälfte der Zeit. …
Im allgemeinen Einstellung des Gradientenabstiegsalgorithmus haben wir wobei x n ist der aktuelle Punkt, η ist die Schrittgröße und g r a d i e n t x n ist der bei x n bewertete Gradient . xn+1=xn−η∗gradientxnxn+1=xn−η∗gradientxnx_{n+1} = x_{n} - \eta * gradient_{x_n}xnxnx_nηη\etagradientxngradientxngradient_{x_n}xnxnx_n Ich habe in einigen Algorithmen gesehen, …
Deep-Learning-Literatur steckt voller cleverer Tricks bei der Verwendung nicht konstanter Lernraten beim Gradientenabstieg. Dinge wie Exponential Decay, RMSprop, Adagrad usw. sind einfach zu implementieren und in jedem Deep-Learning-Paket verfügbar, scheinen jedoch außerhalb neuronaler Netze nicht zu existieren. Gibt es einen Grund dafür? Wenn es den Menschen einfach egal ist, gibt …
Diese Frage befasst sich mit der eingeschränkten Maximalwahrscheinlichkeitsschätzung (REML) in einer bestimmten Version des linearen Modells, nämlich: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), Wobei eine durch ; parametrisierte ( ) Matrix ist , wie auch . ist ein unbekannter Vektor von Störparametern; das Interesse liegt in …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.