Statistiken und Big Data optimization

2

Ist die Fehlerrate eine konvexe Funktion des Regularisierungsparameters Lambda?

Bei der Auswahl des Regularisierungsparameters Lambda in Ridge oder Lasso wird empfohlen, verschiedene Lambda-Werte auszuprobieren, den Fehler im Validierungssatz zu messen und schließlich den Lambda-Wert auszuwählen, der den niedrigsten Fehler zurückgibt. Es ist mir kein Problem, wenn die Funktion f (Lambda) = Fehler konvex ist. Könnte es so sein? Dh …

11 cross-validation error regularization validation optimization

2

Verwenden Sie den Pearson-Korrelationskoeffizienten als Optimierungsziel beim maschinellen Lernen

Beim maschinellen Lernen (für Regressionsprobleme) sehe ich häufig, dass der mittlere quadratische Fehler (MSE) oder der mittlere absolute Fehler (MAE) als Fehlerfunktion zum Minimieren verwendet werden (plus Regularisierungsterm). Ich frage mich, ob es Situationen gibt, in denen die Verwendung des Korrelationskoeffizienten angemessener wäre. Wenn eine solche Situation vorliegt, dann: In …

11 regression machine-learning svm optimization deep-learning

3

Optimierung stochastischer Computermodelle

Dies ist ein schwieriges Thema für mich, da die Wörter Optimierung und Stochastik in einer Suche fast automatisch standardmäßig nach stochastischer Optimierung suchen. Was ich aber wirklich wissen möchte, ist, welche Methoden zur Optimierung von Computermodellen existieren, wenn die Ausgabe des Computermodells stochastisch, dh nicht deterministisch ist? Wenn Sie beispielsweise …

11 optimization stochastic-processes

2

Optimales Binning in Bezug auf eine bestimmte Antwortvariable

Ich suche nach einer optimalen Binning-Methode (Diskretisierung) einer kontinuierlichen Variablen in Bezug auf eine gegebene Antwort- (Ziel-) Binärvariable und mit einer maximalen Anzahl von Intervallen als Parameter. Beispiel: Ich habe eine Reihe von Beobachtungen von Personen mit den Variablen "height" (fortlaufende Zahl) und "has_back_pains" (binär). Ich möchte die Höhe in …

11 r dataset optimization discrete-data binning

1

Fisher's Exact Test und hypergeometrische Verteilung

Ich wollte den genauen Test des Fischers besser verstehen, deshalb habe ich das folgende Spielzeugbeispiel entwickelt, bei dem f und m männlich und weiblich und n und y dem "Sodakonsum" wie folgt entsprechen: > soda_gender f m n 0 5 y 5 0 Dies ist natürlich eine drastische Vereinfachung, aber …

11 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

2

Kreuzvalidierung und Parameteroptimierung

Ich habe eine Frage zur Parameteroptimierung, wenn ich die 10-fache Kreuzvalidierung verwende. Ich möchte fragen, ob die Parameter während des Modelltrainings jeder Falte festgelegt werden sollen oder nicht, dh (1) einen Satz optimierter Parameter für die durchschnittliche Genauigkeit jeder Falte auswählen. oder (2) Ich sollte den optimierten Parameter für jede …

11 cross-validation optimization parameterization

1

Das Rätsel eines Friseurs

Meine Friseurin Stacey macht immer ein fröhliches Gesicht, ist aber oft gestresst, ihre Zeit zu verwalten. Heute war Stacey für meinen Termin überfällig und sehr entschuldigend. Als ich meinen Haarschnitt bekam, fragte ich mich: Wie lange sollten ihre Standardtermine dauern? (Wenn die Präferenz des Kunden für saubere runde Zahlen für …

11 normal-distribution optimization queueing decision-theory

3

Stoppkriterium für Nelder Mead

Ich versuche, den Nelder-Mead-Algorithmus zur Optimierung einer Funktion zu implementieren. Die Wikipedia-Seite über Nelder-Mead ist überraschend klar über den gesamten Algorithmus, mit Ausnahme seines Stoppkriteriums. Dort heißt es leider: Auf Konvergenz prüfen [Klarstellung erforderlich] . Ich habe selbst einige Kriterien ausprobiert und getestet: Stoppen Sie, wenn wobei ϵ klein ist …

11 optimization algorithms

1

R / mgcv: Warum produzieren te () und ti () Tensorprodukte unterschiedliche Oberflächen?

Das mgcvPaket für Rhat zwei Funktionen zum Anpassen von Tensorproduktwechselwirkungen: te()und ti(). Ich verstehe die grundlegende Arbeitsteilung zwischen den beiden (Anpassen einer nichtlinearen Wechselwirkung vs. Zerlegen dieser Wechselwirkung in Haupteffekte und eine Wechselwirkung). Was ich nicht verstehe, ist warum te(x1, x2)und ti(x1) + ti(x2) + ti(x1, x2)kann (leicht) unterschiedliche Ergebnisse …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

3

MAP ist eine Lösung für

Ich bin in einem der Online-Kurse auf diese Folien (Folie 16 und 17) gestoßen. Der Ausbilder versuchte zu erklären, wie die maximale posteriore Schätzung (MAP) tatsächlich die Lösung L(θ)=I[θ≠θ∗]L(θ)=I[θ≠θ∗]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}] , wobei θ∗θ∗\theta^{*} der wahre Parameter ist. Kann jemand bitte erklären, wie das folgt? Bearbeiten: Folien hinzugefügt, …

10 bayesian optimization loss-functions decision-theory map-estimation

1

LASSO-Beziehung zwischen

Mein Verständnis der LASSO-Regression ist, dass die Regressionskoeffizienten ausgewählt werden, um das Minimierungsproblem zu lösen: minβ∥y−Xβ∥22 s.t.∥β∥1≤tminβ‖y−Xβ‖22 s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t In der Praxis wird dies mit einem Lagrange-Multiplikator durchgeführt, wodurch das Problem gelöst werden muss minβ∥y−Xβ∥22+λ∥β∥1minβ‖y−Xβ‖22+λ‖β‖1\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 …

10 optimization lasso regularization lagrange-multipliers

1

Wie skaliert Lasso mit der Größe der Designmatrix?

Wenn ich ein Design haben Matrix , wobei n die Anzahl der Beobachtungen der Dimension d , was die Komplexität der Lösung für β = argmin β 1X.∈ R.n × dX∈Rn×dX\in\mathcal{R}^{n\times d}nnndddmit LASSO, wrtnundd? Ich denke, die Antwort sollte sich darauf beziehen, wieeineLASSO-Iteration mit diesen Parametern skaliert, und nicht darauf, …

10 optimization lasso regularization time-complexity

2

Wie berechnet Tensorflow `tf.train.Optimizer` Gradienten?

Ich folge dem Tensorflow Mnist-Tutorial ( https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/mnist/mnist_softmax.py ). Das Tutorial verwendet tf.train.Optimizer.minimize(speziell tf.train.GradientDescentOptimizer). Ich sehe keine Argumente, die irgendwo übergeben werden, um Farbverläufe zu definieren. Verwendet der Tensorfluss standardmäßig eine numerische Differenzierung? Gibt es eine Möglichkeit, Farbverläufe so zu übergeben, wie Sie es können scipy.optimize.minimize?

10 python optimization tensorflow

1

Warum verwendet das Elo-Bewertungssystem eine falsche Aktualisierungsregel?

Das Elo-Bewertungssystem verwendet einen Gradientenabstiegsminimierungsalgorithmus der Kreuzentropieverlustfunktion zwischen der erwarteten und der beobachteten Wahrscheinlichkeit eines Ergebnisses in gepaarten Vergleichen. Wir können die allgemeinen Verlustfunktionen als schreiben E=−∑n,ipiLog(qi)E=−∑n,ipiLog(qi) E=-\sum_{n,i} p_i Log (q_i) wobei die Summe über alle Ergebnisse und alle Gegner . ist die beobachtete Frequenz des Ereignisses und die erwartete …

10 regression optimization rating

4

Gibt es eine Formel für eine s-förmige Kurve mit Domäne und Bereich [0,1]

Grundsätzlich möchte ich Ähnlichkeitsmaße in Gewichte umwandeln, die als Prädiktoren verwendet werden. Die Ähnlichkeiten werden auf [0,1] sein, und ich werde die Gewichte so einschränken, dass sie auch auf [0,1] liegen. Ich hätte gerne eine Parameterfunktion, die dieses Mapping ausführt, das ich wahrscheinlich mithilfe des Gradientenabfalls optimieren werde. Die Anforderungen …

10 optimization curve-fitting

Als «optimization» getaggte Fragen