Statistiken und Big Data optimization

1

Bayesianische Optimierung für nicht-Gaußsches Rauschen

Eine Black-Box-Funktion , die punktweise unter Berücksichtigung des Gaußschen Rauschens ausgewertet wird, dh kann mithilfe der Bayes'schen Optimierung minimiert werden, wobei ein Gaußscher Prozess als verrauschtes Funktionsmodell verwendet wird.f: R.n→ R.f::R.n→R.f: \mathbb{R}^n \rightarrow \mathbb{R}f( x ) + N.( μ ( x ) , σ(x )2)f(x)+N.(μ(x),σ(x)2)f(x) + \mathcal{N}(\mu(x),\sigma(x)^2) Wie kann die …

8 bayesian optimization bayesian-optimization

1

Unterschied zwischen simuliertem Tempern und mehrfachem Gier

Ich versuche zu verstehen, was der Unterschied zwischen simuliertem Tempern und dem Ausführen mehrerer gieriger Bergsteigeralgorithmen ist. Nach meinem Verständnis wird der Gier-Algorithmus die Punktzahl auf ein lokales Maximum bringen. Wenn wir jedoch mit mehreren zufälligen Konfigurationen beginnen und Gier auf alle anwenden, haben wir mehrere lokale Maxima. Dann wählen …

8 machine-learning optimization algorithms

1

Was sind einige der Nachteile der Bayes'schen Hyperparameteroptimierung?

Ich bin ziemlich neu im maschinellen Lernen und in der Statistik, aber ich habe mich gefragt, warum die Bayes'sche Optimierung beim Lernen von maschinellem Lernen zur Optimierung Ihrer Algorithmus-Hyperparameter nicht häufiger online verwendet wird. Verwenden Sie beispielsweise ein Framework wie dieses: https://github.com/fmfn/BayesianOptimization Hat die Bayes'sche Optimierung Ihrer Hyperparameter eine Einschränkung …

8 machine-learning optimization hyperparameter bayesian-optimization

1

Wie erhalte ich optimale Hyperparameter nach verschachtelter Kreuzvalidierung?

Wenn wir einen großen Datensatz haben, können wir ihn im Allgemeinen in (1) Training, (2) Validierung und (3) Test aufteilen. Wir verwenden die Validierung, um die besten Hyperparameter bei der Kreuzvalidierung zu identifizieren (z. B. C in SVM), und trainieren dann das Modell unter Verwendung der besten Hyperparameter mit dem …

8 machine-learning cross-validation scikit-learn hyperparameter optimization

3

Ein konkretes Beispiel ist die Durchführung einer SVD, um fehlende Werte zu unterstellen

Ich habe die großartigen Kommentare zum Umgang mit fehlenden Werten vor dem Anwenden von SVD gelesen, möchte aber anhand eines einfachen Beispiels wissen, wie dies funktioniert: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Wenn ich in der …

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

1

Was ist der Unterschied zwischen der Bayes'schen Optimierung (Gauß'sche Prozesse) und dem simulierten Tempern in der Praxis?

Beide Prozesse scheinen verwendet zu werden, um den Maximalwert einer unbekannten Funktion zu schätzen, und beide haben offensichtlich unterschiedliche Möglichkeiten, dies zu tun. Aber in der Praxis ist eine der beiden Methoden im Wesentlichen austauschbar? Wo würde ich eins über das andere verwenden wollen? https://en.wikipedia.org/wiki/Simulated_annealing http://www.iro.umontreal.ca/~bengioy/cifar/NCAP2014-summerschool/slides/Ryan_adams_140814_bayesopt_ncap.pdf Ähnliche Frage Bayes'sche Optimierung …

8 optimization maximum bayesian-optimization

1

Details zur praktischen Implementierung der Bayes'schen Optimierung

Ich probiere Bayesian Optimization aus und folge Snoek, Larochelle und Adams [ http://arxiv.org/pdf/1206.2944.pdf] mit GPML [ http://www.gaussianprocess.org/gpml/code/matlab / doc /] . Ich habe die auf Seite 3 beschriebene Erfassungsfunktion für erwartete Verbesserungen implementiert und gehe davon aus, dass ich richtig bin. Um zu entscheiden, wo ich mein Ziel als nächstes …

8 gaussian-process optimization bayesian-optimization

2

Warum verlangsamt das Hinzufügen einer L1-Strafe zu Rs Optim die Dinge so sehr (relativ zu keiner Strafe oder L2)?

Ich führe einige Optimierungen mit der Implementierung von BFGS durch Optim durch. Die Zielfunktion ist eigentlich ein Rechenalgorithmus, nicht nur Mathematik. Ich habe festgestellt, dass sich die Dinge ziemlich verlangsamen, wenn ich eine L1-Strafe hinzufüge. Warum könnte das sein? Gibt es etwas an L1, das die Dinge verlangsamt? Wie ist …

8 r optimization lasso

1

Regularisierung und Projektion auf die

Ich versuche zu verstehen , wie Regularisierung in der Bezeichnung der Projektionen auf ein Werk l∗l∗l_* Kugel und euklidische Projektion auf die simplex. Ich bin mir nicht sicher, ob ich verstehe, was wir meinen, wenn wir den Gewichtsvektor auf die l1l1l_1 oder l2l2l_2 Bälle projizieren . Ich kann das Konzept …

8 optimization regularization projection

2

Warum enthält der Name EM-Algorithmus ein E.

Ich verstehe, wo der E-Schritt im Algorithmus stattfindet (wie im Abschnitt "Mathematik" unten erläutert). Meiner Meinung nach ist der Schlüsseleinfallsreichtum des Algorithmus die Verwendung der Jensen-Ungleichung, um eine Untergrenze für die Log-Wahrscheinlichkeit zu erstellen. In diesem Sinne Expectationwird einfach genommen, um die logarithmische Wahrscheinlichkeit neu zu formulieren, um in Jensens …

8 maximum-likelihood optimization expectation-maximization latent-variable kullback-leibler

2

Optimale Behälterbreite für zweidimensionales Histogramm

Es gibt viele Regeln für die Auswahl einer optimalen Behälterbreite in einem 1D-Histogramm (siehe zum Beispiel ). Ich suche nach einer Regel, die die Auswahl optimaler Breiten gleicher Bin auf zweidimensionale Histogramme anwendet . Gibt es eine solche Regel? Vielleicht kann eine der bekannten Regeln für 1D-Histogramme leicht angepasst werden. …

8 optimization histogram

2

Sparse Autoencoder [Hyper] -Parameter

Ich habe gerade angefangen, das Autoencoder- Paket in R zu verwenden. Eingaben in die autoencode()Funktion umfassen Lambda, Beta, Rho und Epsilon. Was sind die Grenzen für diese Werte? Variieren sie für jede Aktivierungsfunktion? Werden diese Parameter "Hyperparameter" genannt? Ist rho = .01 unter der Annahme eines spärlichen Autoencoders gut für …

8 neural-networks optimization deep-learning deep-belief-networks autoencoders

1

Bei der Optimierung eines logistischen Regressionsmodells führen manchmal mehr Daten dazu, dass die Dinge * schneller * laufen. Irgendeine Idee warum?

Ich habe mit logistischer Regression mit verschiedenen Batch-Optimierungsalgorithmen (konjugierter Gradient, Newton-Raphson und verschiedene Quasinewton-Methoden) herumgespielt. Eine Sache, die mir aufgefallen ist, ist, dass das Hinzufügen von mehr Daten zu einem Modell manchmal dazu führen kann, dass das Training des Modells viel weniger Zeit in Anspruch nimmt. Für jede Iteration müssen …

8 logistic references optimization

2

Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?

Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

2

Quadratische Programmierung, wenn die Matrix nicht positiv bestimmt ist

http://cran.r-project.org/web/packages/quadprog/quadprog.pdf Das R-Paket quadprogscheint in der Lage zu sein, das quadratische Programmierproblem nur zu lösen, wenn die Matrix positiv definit ist.DDD Es gibt jedoch einen Fall, in dem die Matrix nicht eindeutig positiv ist. sowieDDD min(x2+y2−6xy)subject tox+y3x+yx,y≤≤≥1,1.5,0.min(x2+y2−6xy)subject tox+y≤1,3x+y≤1.5,x,y≥0.\begin{eqnarray} \min(x^2 + y^2 - 6xy) \\ \text{subject to}\quad\quad x + y &\leq& …

8 r optimization

Als «optimization» getaggte Fragen