Als «optimization» getaggte Fragen

Verwenden Sie dieses Tag für jede Verwendung der Optimierung in Statistiken.

1
Bayesianische Optimierung für nicht-Gaußsches Rauschen
Eine Black-Box-Funktion , die punktweise unter Berücksichtigung des Gaußschen Rauschens ausgewertet wird, dh kann mithilfe der Bayes'schen Optimierung minimiert werden, wobei ein Gaußscher Prozess als verrauschtes Funktionsmodell verwendet wird.f: R.n→ R.f::R.n→R.f: \mathbb{R}^n \rightarrow \mathbb{R}f( x ) + N.( μ ( x ) , σ(x )2)f(x)+N.(μ(x),σ(x)2)f(x) + \mathcal{N}(\mu(x),\sigma(x)^2) Wie kann die …

1
Unterschied zwischen simuliertem Tempern und mehrfachem Gier
Ich versuche zu verstehen, was der Unterschied zwischen simuliertem Tempern und dem Ausführen mehrerer gieriger Bergsteigeralgorithmen ist. Nach meinem Verständnis wird der Gier-Algorithmus die Punktzahl auf ein lokales Maximum bringen. Wenn wir jedoch mit mehreren zufälligen Konfigurationen beginnen und Gier auf alle anwenden, haben wir mehrere lokale Maxima. Dann wählen …

1
Was sind einige der Nachteile der Bayes'schen Hyperparameteroptimierung?
Ich bin ziemlich neu im maschinellen Lernen und in der Statistik, aber ich habe mich gefragt, warum die Bayes'sche Optimierung beim Lernen von maschinellem Lernen zur Optimierung Ihrer Algorithmus-Hyperparameter nicht häufiger online verwendet wird. Verwenden Sie beispielsweise ein Framework wie dieses: https://github.com/fmfn/BayesianOptimization Hat die Bayes'sche Optimierung Ihrer Hyperparameter eine Einschränkung …

1
Wie erhalte ich optimale Hyperparameter nach verschachtelter Kreuzvalidierung?
Wenn wir einen großen Datensatz haben, können wir ihn im Allgemeinen in (1) Training, (2) Validierung und (3) Test aufteilen. Wir verwenden die Validierung, um die besten Hyperparameter bei der Kreuzvalidierung zu identifizieren (z. B. C in SVM), und trainieren dann das Modell unter Verwendung der besten Hyperparameter mit dem …

3
Ein konkretes Beispiel ist die Durchführung einer SVD, um fehlende Werte zu unterstellen
Ich habe die großartigen Kommentare zum Umgang mit fehlenden Werten vor dem Anwenden von SVD gelesen, möchte aber anhand eines einfachen Beispiels wissen, wie dies funktioniert: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Wenn ich in der …
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
Was ist der Unterschied zwischen der Bayes'schen Optimierung (Gauß'sche Prozesse) und dem simulierten Tempern in der Praxis?
Beide Prozesse scheinen verwendet zu werden, um den Maximalwert einer unbekannten Funktion zu schätzen, und beide haben offensichtlich unterschiedliche Möglichkeiten, dies zu tun. Aber in der Praxis ist eine der beiden Methoden im Wesentlichen austauschbar? Wo würde ich eins über das andere verwenden wollen? https://en.wikipedia.org/wiki/Simulated_annealing http://www.iro.umontreal.ca/~bengioy/cifar/NCAP2014-summerschool/slides/Ryan_adams_140814_bayesopt_ncap.pdf Ähnliche Frage Bayes'sche Optimierung …

1
Details zur praktischen Implementierung der Bayes'schen Optimierung
Ich probiere Bayesian Optimization aus und folge Snoek, Larochelle und Adams [ http://arxiv.org/pdf/1206.2944.pdf] mit GPML [ http://www.gaussianprocess.org/gpml/code/matlab / doc /] . Ich habe die auf Seite 3 beschriebene Erfassungsfunktion für erwartete Verbesserungen implementiert und gehe davon aus, dass ich richtig bin. Um zu entscheiden, wo ich mein Ziel als nächstes …


1
Regularisierung und Projektion auf die
Ich versuche zu verstehen , wie Regularisierung in der Bezeichnung der Projektionen auf ein Werk l∗l∗l_* Kugel und euklidische Projektion auf die simplex. Ich bin mir nicht sicher, ob ich verstehe, was wir meinen, wenn wir den Gewichtsvektor auf die l1l1l_1 oder l2l2l_2 Bälle projizieren . Ich kann das Konzept …

2
Warum enthält der Name EM-Algorithmus ein E.
Ich verstehe, wo der E-Schritt im Algorithmus stattfindet (wie im Abschnitt "Mathematik" unten erläutert). Meiner Meinung nach ist der Schlüsseleinfallsreichtum des Algorithmus die Verwendung der Jensen-Ungleichung, um eine Untergrenze für die Log-Wahrscheinlichkeit zu erstellen. In diesem Sinne Expectationwird einfach genommen, um die logarithmische Wahrscheinlichkeit neu zu formulieren, um in Jensens …

2
Optimale Behälterbreite für zweidimensionales Histogramm
Es gibt viele Regeln für die Auswahl einer optimalen Behälterbreite in einem 1D-Histogramm (siehe zum Beispiel ). Ich suche nach einer Regel, die die Auswahl optimaler Breiten gleicher Bin auf zweidimensionale Histogramme anwendet . Gibt es eine solche Regel? Vielleicht kann eine der bekannten Regeln für 1D-Histogramme leicht angepasst werden. …


1
Bei der Optimierung eines logistischen Regressionsmodells führen manchmal mehr Daten dazu, dass die Dinge * schneller * laufen. Irgendeine Idee warum?
Ich habe mit logistischer Regression mit verschiedenen Batch-Optimierungsalgorithmen (konjugierter Gradient, Newton-Raphson und verschiedene Quasinewton-Methoden) herumgespielt. Eine Sache, die mir aufgefallen ist, ist, dass das Hinzufügen von mehr Daten zu einem Modell manchmal dazu führen kann, dass das Training des Modells viel weniger Zeit in Anspruch nimmt. Für jede Iteration müssen …

2
Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?
Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

2
Quadratische Programmierung, wenn die Matrix nicht positiv bestimmt ist
http://cran.r-project.org/web/packages/quadprog/quadprog.pdf Das R-Paket quadprogscheint in der Lage zu sein, das quadratische Programmierproblem nur zu lösen, wenn die Matrix positiv definit ist.DDD Es gibt jedoch einen Fall, in dem die Matrix nicht eindeutig positiv ist. sowieDDD min(x2+y2−6xy)subject tox+y3x+yx,y≤≤≥1,1.5,0.min(x2+y2−6xy)subject tox+y≤1,3x+y≤1.5,x,y≥0.\begin{eqnarray} \min(x^2 + y^2 - 6xy) \\ \text{subject to}\quad\quad x + y &\leq& …
8 r  optimization 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.