Statistiken und Big Data optimization

4

Zeitdiskretes Ereignisverlaufsmodell (Überlebensmodell) in R.

Ich versuche, ein zeitdiskretes Modell in R einzubauen, bin mir aber nicht sicher, wie ich das machen soll. Ich habe gelesen, dass Sie die abhängige Variable in verschiedenen Zeilen organisieren können, eine für jede glmZeitbeobachtung , und die Funktion mit einem Logit- oder Cloglog-Link verwenden können. In diesem Sinne, ich …

10 r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

4

Optimierung des Gefälles

Ich versuche, die Gradientenabstiegsoptimierung in ML-Algorithmen (Machine Learning) zu verstehen. Ich verstehe , dass es eine Kostenfunktion-wo das Ziel ist , den Fehler zu minimieren . In einem Szenario, in dem die Gewichte optimiert werden, um den minimalen Fehler zu ergeben, und partielle Ableitungen verwendet werden, ändert sich in jedem …

9 optimization gradient-descent

1

Mein neuronales Netzwerk kann nicht einmal die euklidische Distanz lernen

Also versuche ich, mir neuronale Netze beizubringen (für Regressionsanwendungen, ohne Bilder von Katzen zu klassifizieren). Meine ersten Experimente waren das Trainieren eines Netzwerks zur Implementierung eines FIR-Filters und einer diskreten Fourier-Transformation (Training für "Vorher" - und "Nachher" -Signale), da dies beide lineare Operationen sind, die von einer einzelnen Schicht ohne …

9 machine-learning neural-networks optimization keras euclidean

2

Warum werden meine Schritte kleiner, wenn beim Steigungsabstieg eine feste Schrittgröße verwendet wird?

Angenommen, wir machen ein Spielzeugbeispiel für einen anständigen Gradienten, bei dem eine quadratische Funktion unter Verwendung der festen Schrittgröße minimiert wird . ( )α = 0,03xT.A xxT.EINxx^TAxα = 0,03α=0,03\alpha=0.03A = [ 10 , 2 ; 2 , 3 ]EIN=[10,2;;2,3]]A=[10, 2; 2, 3] Wenn wir die Spur von in jeder Iteration …

9 r machine-learning optimization gradient-descent

4

Das Training eines neuronalen Netzwerks für die Regression sagt immer den Mittelwert voraus

Ich trainiere ein einfaches Faltungs-Neuronales Netzwerk für die Regression, wobei die Aufgabe darin besteht, die (x, y) Position einer Box in einem Bild vorherzusagen, z. Die Ausgabe des Netzwerks hat zwei Knoten, einen für x und einen für y. Der Rest des Netzwerks ist ein Standard-Faltungsnetzwerk. Der Verlust ist ein …

9 machine-learning neural-networks optimization deep-learning loss-functions

1

Wie Sie Draws bei der Berechnung mehrerer Erwartungen optimal verteilen können

Angenommen, wir möchten einige Erwartungen berechnen: EYEX|Y[f(X,Y)]EYEX|Y[f(X,Y)]E_YE_{X|Y}[f(X,Y)] Angenommen, wir möchten dies mithilfe der Monte-Carlo-Simulation approximieren. EYEX|Y[f(X,Y)]≈1RS∑r=1R∑s=1Sf(xr,s,yr)EYEX|Y[f(X,Y)]≈1RS∑r=1R∑s=1Sf(xr,s,yr)E_YE_{X|Y}[f(X,Y)] \approx \frac1{RS}\sum_{r=1}^R\sum_{s=1}^Sf(x^{r,s},y^r) ABER nehmen wir an, es ist teuer, Proben aus beiden Verteilungen zu ziehen, so dass wir es uns nur leisten können, eine feste Zahl . KKK Wie sollen wir zuordnen ? Beispiele …

9 optimization conditional-probability simulation expected-value monte-carlo

1

Warum proximaler Gradientenabstieg anstelle einfacher Subgradientenmethoden für Lasso?

Ich dachte daran, Lasso mit Vanille-Subgradienten-Methoden zu lösen. Aber ich habe Leute gelesen, die vorschlagen, den proximalen Gradientenabstieg zu verwenden. Kann jemand hervorheben, warum für Lasso proximale GD anstelle von Vanille-Subgradienten-Methoden verwendet werden?

9 machine-learning optimization lasso gradient-descent

2

Warum nimmt die Summe der quadratischen Residuen beim Hinzufügen einer erklärenden Variablen nicht zu?

In meinem ökonometrischen Lehrbuch (Introductory Econometrics) über OLS schreibt der Autor: "SSR muss fallen, wenn eine weitere erklärende Variable hinzugefügt wird." Warum ist es?

9 regression optimization econometrics intuition sums-of-squares

1

Was sind die Unterschiede zwischen verschiedenen quadratischen R-Programmierlösern?

Ich suche nach einem Paket, das mir hilft, einige quadratische Optimierungsprobleme zu lösen, und ich sehe, dass es mindestens ein halbes Dutzend verschiedene Pakete gibt. Laut dieser Seite: QP (Quadratic Programming, 90C20): cplexAPI , Kernlab , limSolve , LowRankQP , Quadprog , Rcplex , Rmosek Einige davon (Rmosek und cplexAPI) …

9 r optimization

2

Parameterschätzung mit verallgemeinerten linearen Modellen

Wenn wir eine glmFunktion in R verwenden, wird standardmäßig die iterativ neu gewichtete Methode der kleinsten Quadrate (IWLS) verwendet, um die maximale Wahrscheinlichkeitsschätzung der Parameter zu ermitteln. Jetzt habe ich zwei Fragen. Garantieren IWLS-Schätzungen das globale Maximum der Wahrscheinlichkeitsfunktion? Basierend auf der letzten Folie in dieser Präsentation denke ich, dass …

9 r estimation generalized-linear-model maximum-likelihood optimization

2

Wie kann ich 95% -Konfidenzintervalle mithilfe der Profilerstellung für Parameter schätzen, die durch Maximieren einer Log-Likelihood-Funktion mithilfe von Optim in R geschätzt werden?

Wie kann ich 95% -Konfidenzintervalle mithilfe der Profilerstellung für Parameter schätzen, die durch Maximieren einer Log-Likelihood-Funktion mithilfe von Optim in R geschätzt werden? Ich weiß, dass ich die Kovarianzmatrix durch Invertieren des Hessischen asymptotisch schätzen kann , aber ich bin besorgt, dass meine Daten nicht den Annahmen entsprechen, die für …

9 r confidence-interval maximum-likelihood optimization profile-likelihood

2

Vorteile der Lösung eines Problems durch Formulierung einer Kostenfunktion, die global optimierbar ist

Dies ist eine eher allgemeine Frage (dh nicht unbedingt spezifisch für Statistiken), aber ich habe einen Trend in der maschinellen Lern- und statistischen Literatur festgestellt, bei dem Autoren den folgenden Ansatz bevorzugen: Ansatz 1 : Erhalten Sie eine Lösung für ein praktisches Problem, indem Sie eine Kostenfunktion formulieren, für die …

9 optimization function

4

Referenzen zur numerischen Optimierung für Statistiker

Ich suche nach einer soliden Referenz (oder Referenzen) zu numerischen Optimierungstechniken, die sich an Statistiker richten, dh diese Methoden würden auf einige Standard-Inferenzprobleme angewendet (z. B. MAP / MLE in gängigen Modellen). Dinge wie Gradientenabstieg (gerade und stochastisch), EM und seine Ausgründungen / Verallgemeinerungen, simuliertes Tempern usw. Ich hoffe, dass …

9 estimation references optimization

2

Berechnen Sie die ROC-Kurve für Daten

Ich habe also 16 Studien, in denen ich versuche, eine Person anhand eines biometrischen Merkmals mithilfe von Hamming Distance zu authentifizieren. Mein Schwellenwert ist auf 3,5 eingestellt. Meine Daten sind unten und nur Versuch 1 ist ein wahres Positiv: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

1

Was ist der Unterschied zwischen der Maximierung der bedingten (logarithmischen) Wahrscheinlichkeit oder der gemeinsamen (logarithmischen) Wahrscheinlichkeit bei der Schätzung der Parameter eines Modells?

Betrachten Sie eine Antwort y und Datenmatrix X . Angenommen, ich erstelle ein Modell des Formulars - y ~ g (X, )θθ\theta (g () könnte eine beliebige Funktion von X und )θθ\theta Zur Schätzung von θθ\theta Verwendung der Maximum Likelihood (ML) -Methode könnte ich entweder mit der bedingten ML (vorausgesetzt, …

9 estimation maximum-likelihood optimization

Als «optimization» getaggte Fragen