Als «optimization» getaggte Fragen

Verwenden Sie dieses Tag für jede Verwendung der Optimierung in Statistiken.

2
Ist die Fehlerrate eine konvexe Funktion des Regularisierungsparameters Lambda?
Bei der Auswahl des Regularisierungsparameters Lambda in Ridge oder Lasso wird empfohlen, verschiedene Lambda-Werte auszuprobieren, den Fehler im Validierungssatz zu messen und schließlich den Lambda-Wert auszuwählen, der den niedrigsten Fehler zurückgibt. Es ist mir kein Problem, wenn die Funktion f (Lambda) = Fehler konvex ist. Könnte es so sein? Dh …

2
Verwenden Sie den Pearson-Korrelationskoeffizienten als Optimierungsziel beim maschinellen Lernen
Beim maschinellen Lernen (für Regressionsprobleme) sehe ich häufig, dass der mittlere quadratische Fehler (MSE) oder der mittlere absolute Fehler (MAE) als Fehlerfunktion zum Minimieren verwendet werden (plus Regularisierungsterm). Ich frage mich, ob es Situationen gibt, in denen die Verwendung des Korrelationskoeffizienten angemessener wäre. Wenn eine solche Situation vorliegt, dann: In …

3
Optimierung stochastischer Computermodelle
Dies ist ein schwieriges Thema für mich, da die Wörter Optimierung und Stochastik in einer Suche fast automatisch standardmäßig nach stochastischer Optimierung suchen. Was ich aber wirklich wissen möchte, ist, welche Methoden zur Optimierung von Computermodellen existieren, wenn die Ausgabe des Computermodells stochastisch, dh nicht deterministisch ist? Wenn Sie beispielsweise …

2
Optimales Binning in Bezug auf eine bestimmte Antwortvariable
Ich suche nach einer optimalen Binning-Methode (Diskretisierung) einer kontinuierlichen Variablen in Bezug auf eine gegebene Antwort- (Ziel-) Binärvariable und mit einer maximalen Anzahl von Intervallen als Parameter. Beispiel: Ich habe eine Reihe von Beobachtungen von Personen mit den Variablen "height" (fortlaufende Zahl) und "has_back_pains" (binär). Ich möchte die Höhe in …

1
Fisher's Exact Test und hypergeometrische Verteilung
Ich wollte den genauen Test des Fischers besser verstehen, deshalb habe ich das folgende Spielzeugbeispiel entwickelt, bei dem f und m männlich und weiblich und n und y dem "Sodakonsum" wie folgt entsprechen: > soda_gender f m n 0 5 y 5 0 Dies ist natürlich eine drastische Vereinfachung, aber …

2
Kreuzvalidierung und Parameteroptimierung
Ich habe eine Frage zur Parameteroptimierung, wenn ich die 10-fache Kreuzvalidierung verwende. Ich möchte fragen, ob die Parameter während des Modelltrainings jeder Falte festgelegt werden sollen oder nicht, dh (1) einen Satz optimierter Parameter für die durchschnittliche Genauigkeit jeder Falte auswählen. oder (2) Ich sollte den optimierten Parameter für jede …

1
Das Rätsel eines Friseurs
Meine Friseurin Stacey macht immer ein fröhliches Gesicht, ist aber oft gestresst, ihre Zeit zu verwalten. Heute war Stacey für meinen Termin überfällig und sehr entschuldigend. Als ich meinen Haarschnitt bekam, fragte ich mich: Wie lange sollten ihre Standardtermine dauern? (Wenn die Präferenz des Kunden für saubere runde Zahlen für …

3
Stoppkriterium für Nelder Mead
Ich versuche, den Nelder-Mead-Algorithmus zur Optimierung einer Funktion zu implementieren. Die Wikipedia-Seite über Nelder-Mead ist überraschend klar über den gesamten Algorithmus, mit Ausnahme seines Stoppkriteriums. Dort heißt es leider: Auf Konvergenz prüfen [Klarstellung erforderlich] . Ich habe selbst einige Kriterien ausprobiert und getestet: Stoppen Sie, wenn wobei ϵ klein ist …

1
R / mgcv: Warum produzieren te () und ti () Tensorprodukte unterschiedliche Oberflächen?
Das mgcvPaket für Rhat zwei Funktionen zum Anpassen von Tensorproduktwechselwirkungen: te()und ti(). Ich verstehe die grundlegende Arbeitsteilung zwischen den beiden (Anpassen einer nichtlinearen Wechselwirkung vs. Zerlegen dieser Wechselwirkung in Haupteffekte und eine Wechselwirkung). Was ich nicht verstehe, ist warum te(x1, x2)und ti(x1) + ti(x2) + ti(x1, x2)kann (leicht) unterschiedliche Ergebnisse …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
MAP ist eine Lösung für
Ich bin in einem der Online-Kurse auf diese Folien (Folie 16 und 17) gestoßen. Der Ausbilder versuchte zu erklären, wie die maximale posteriore Schätzung (MAP) tatsächlich die Lösung L(θ)=I[θ≠θ∗]L(θ)=I[θ≠θ∗]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}] , wobei θ∗θ∗\theta^{*} der wahre Parameter ist. Kann jemand bitte erklären, wie das folgt? Bearbeiten: Folien hinzugefügt, …

1
LASSO-Beziehung zwischen
Mein Verständnis der LASSO-Regression ist, dass die Regressionskoeffizienten ausgewählt werden, um das Minimierungsproblem zu lösen: minβ∥y−Xβ∥22 s.t.∥β∥1≤tminβ‖y−Xβ‖22 s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t In der Praxis wird dies mit einem Lagrange-Multiplikator durchgeführt, wodurch das Problem gelöst werden muss minβ∥y−Xβ∥22+λ∥β∥1minβ‖y−Xβ‖22+λ‖β‖1\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 …


2
Wie berechnet Tensorflow `tf.train.Optimizer` Gradienten?
Ich folge dem Tensorflow Mnist-Tutorial ( https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/mnist/mnist_softmax.py ). Das Tutorial verwendet tf.train.Optimizer.minimize(speziell tf.train.GradientDescentOptimizer). Ich sehe keine Argumente, die irgendwo übergeben werden, um Farbverläufe zu definieren. Verwendet der Tensorfluss standardmäßig eine numerische Differenzierung? Gibt es eine Möglichkeit, Farbverläufe so zu übergeben, wie Sie es können scipy.optimize.minimize?

1
Warum verwendet das Elo-Bewertungssystem eine falsche Aktualisierungsregel?
Das Elo-Bewertungssystem verwendet einen Gradientenabstiegsminimierungsalgorithmus der Kreuzentropieverlustfunktion zwischen der erwarteten und der beobachteten Wahrscheinlichkeit eines Ergebnisses in gepaarten Vergleichen. Wir können die allgemeinen Verlustfunktionen als schreiben E=−∑n,ipiLog(qi)E=−∑n,ipiLog(qi) E=-\sum_{n,i} p_i Log (q_i) wobei die Summe über alle Ergebnisse und alle Gegner . ist die beobachtete Frequenz des Ereignisses und die erwartete …

4
Gibt es eine Formel für eine s-förmige Kurve mit Domäne und Bereich [0,1]
Grundsätzlich möchte ich Ähnlichkeitsmaße in Gewichte umwandeln, die als Prädiktoren verwendet werden. Die Ähnlichkeiten werden auf [0,1] sein, und ich werde die Gewichte so einschränken, dass sie auch auf [0,1] liegen. Ich hätte gerne eine Parameterfunktion, die dieses Mapping ausführt, das ich wahrscheinlich mithilfe des Gradientenabfalls optimieren werde. Die Anforderungen …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.