Ich unterrichte mich selbst über das Lernen der Bestärkung und versuche, das Konzept der ermäßigten Belohnung zu verstehen. Die Belohnung ist also notwendig, um dem System mitzuteilen, welche State-Action-Paare gut und welche schlecht sind. Aber was ich nicht verstehe, ist, warum die vergünstigte Belohnung notwendig ist. Warum sollte es wichtig …
Ich bin kürzlich auf diese Identität gestoßen: E[E(Y|X,Z)|X]=E[Y|X]E[E(Y|X,Z)|X]=E[Y|X]E \left[ E \left(Y|X,Z \right) |X \right] =E \left[Y | X \right] Ich kenne natürlich die einfachere Version dieser Regel, nämlich dass aber ich konnte keine Rechtfertigung dafür finden seine Verallgemeinerung.E[E(Y|X)]=E(Y)E[E(Y|X)]=E(Y)E \left[ E \left(Y|X \right) \right]=E \left(Y\right) Ich wäre dankbar, wenn jemand mich …
Ok, das ist eine Frage, die mich nachts wach hält. Kann die Bootstrap-Prozedur so interpretiert werden, dass sie einer Bayes'schen Prozedur nahekommt (mit Ausnahme der Bayes'schen Bootstrap-Prozedur)? Mir gefällt die bayesianische "Interpretation" von Statistiken sehr gut, die ich für kohärent und leicht verständlich halte. Ich habe jedoch auch eine Schwäche …
Wenn ich "gleitender Durchschnitt" in Bezug auf eine Zeitreihe lese, denke ich etwas wie oder vielleicht ein gewichteter Durchschnitt wie0,5xt-1+0,3xt-2+0,2xt-3. (Mir ist klar, dass dies tatsächlich AR (3) -Modelle sind, aber das ist, worauf mein Gehirn abzielt.) Warum sind MA (q) -Modelle Formeln von Fehlertermen oder "Innovationen"? Was hat{ϵ}mit einem …
Angenommen, ich führe ein Experiment durch, das zwei Ergebnisse haben kann, und ich gehe davon aus, dass die zugrunde liegende "wahre" Verteilung der beiden Ergebnisse eine Binomialverteilung mit den Parametern und : .p B i n o m i a l ( n , p )nnnpppBinomial(n,p)Binomial(n,p){\rm Binomial}(n, p) Ich kann …
Ich bin neu im Data Mining und versuche, einen Entscheidungsbaum gegen einen Datensatz zu trainieren, der sehr unausgewogen ist. Ich habe jedoch Probleme mit der schlechten Vorhersagegenauigkeit. Die Daten bestehen aus Studenten, die Kurse studieren, und die Klassenvariable ist der Kursstatus, der zwei Werte hat - Zurückgezogen oder Aktuell. Alter …
Regularisierung mit Methoden wie Ridge, Lasso und ElasticNet ist für die lineare Regression weit verbreitet. Ich wollte Folgendes wissen: Sind diese Methoden für die logistische Regression anwendbar? Wenn ja, gibt es Unterschiede in der Art und Weise, wie sie für die logistische Regression verwendet werden müssen? Wie kann man eine …
Was ist der Hauptunterschied zwischen der Schätzung der maximalen Wahrscheinlichkeit (MLE) und der Schätzung der kleinsten Quadrate (LSE)? Warum können wir MLE nicht zur Vorhersage von Werten in der linearen Regression und umgekehrt verwenden?yyy Jede Hilfe zu diesem Thema wird sehr geschätzt.
Kann jemand erklären, was maxout-Einheiten in einem neuronalen Netzwerk tun? Wie arbeiten sie und wie unterscheiden sie sich von herkömmlichen Einheiten? Ich habe versucht, das 2013 erschienene "Maxout Network" -Papier von Goodfellow et al. Zu lesen . (aus der Gruppe von Professor Yoshua Bengio), aber ich verstehe es nicht ganz.
Ich verwende in meinem Buch hauptsächlich "Gaußsche Verteilung", aber jemand hat mir nur vorgeschlagen, auf "normale Verteilung" zu wechseln. Besteht ein Konsens darüber, welcher Begriff für Anfänger verwendet werden soll? Natürlich sind die beiden Begriffe Synonyme , daher handelt es sich nicht um eine inhaltliche Frage, sondern lediglich darum, welcher …
Was sind theoretische Gründe, um fehlende Werte nicht zu behandeln? Gradientenverstärkungsmaschinen und Regressionsbäume verarbeiten fehlende Werte. Warum macht Random Forest das nicht?
Ich habe über die Behauptung ausgeführt , dass jede Bootstrap Probe (oder eingetütet Baum) im Durchschnitt enthält etwa 2/32/32/3 der Beobachtungen. Ich verstehe , dass die Wahrscheinlichkeit , sich in keiner der ausgewählt ist nnn von zieht nnn Proben mit Ersatz ist (1−1/n)n(1−1/n)n(1- 1/n)^n , die etwa ausarbeitet 1/31/31/3 Chance, …
Ich schreibe gerade eine Arbeit mit mehreren multiplen Regressionsanalysen. Während die Visualisierung der univariaten linearen Regression über Streudiagramme einfach ist, habe ich mich gefragt, ob es eine gute Möglichkeit gibt, mehrere lineare Regressionen zu visualisieren. Ich zeichne gerade Streudiagramme wie abhängige Variable gegen 1. unabhängige Variable, dann gegen 2. unabhängige …
Meine Frage betrifft den Versuch, eine weit verbreitete Methode zu rechtfertigen, nämlich den erwarteten Wert der Taylor-Reihe zu nehmen. Angenommen, wir haben eine Zufallsvariable mit positivem Mittelwert und Varianz . Zusätzlich haben wir eine Funktion, zum Beispiel .XXXμμ\muσ2σ2\sigma^2log(x)log(x)\log(x) Wenn wir die Taylor-Erweiterung von um den Mittelwert ausführen, erhalten wir wobei …
Ich bin verwirrt. Ich verstehe den Unterschied zwischen einem ARMA- und einem GARCH-Prozess nicht. Für mich gibt es das gleiche Nein? Hier ist der (G) ARCH (p, q) -Prozess σ2t=α0+∑i=1qαir2t−iARCH+∑i=1pβiσ2t−iGARCHσt2=α0+∑i=1qαirt−i2⏟ARCH+∑i=1pβiσt−i2⏟GARCH\sigma_t^2 = \underbrace{ \underbrace{ \alpha_0 + \sum_{i=1}^q \alpha_ir_{t-i}^2} _{ARCH} + \sum_{i=1}^p\beta_i\sigma_{t-i}^2} _{GARCH} Und hier ist die ARMA ( ):p,qp,qp, q Xt=c+εt+∑i=1pφiXt−i+∑i=1qθiεt−i.Xt=c+εt+∑i=1pφiXt−i+∑i=1qθiεt−i. …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.