Statistiken und Big Data optimization

4

Warum Regularisierung in der Polynomregression verwenden, anstatt den Grad zu senken?

Wenn Sie beispielsweise eine Regression durchführen, müssen häufig zwei Hyperparameter ausgewählt werden: die Kapazität der Funktion (z. B. der größte Exponent eines Polynoms) und der Grad der Regularisierung. Was mich verwirrt, ist, warum nicht einfach eine Funktion mit geringer Kapazität wählen und dann jegliche Regularisierung ignorieren? Auf diese Weise wird …

32 regression machine-learning optimization regularization polynomial

1

PCA-Zielfunktion: Welcher Zusammenhang besteht zwischen Maximierung der Varianz und Minimierung des Fehlers?

Der PCA-Algorithmus kann anhand der Korrelationsmatrix formuliert werden (vorausgesetzt, die Daten bereits normalisiert und es wird nur die Projektion auf den ersten PC in Betracht gezogen). Die Zielfunktion kann wie folgt geschrieben werden:XXX maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. Dies ist in Ordnung, und wir verwenden Lagrange-Multiplikatoren, …

31 pca optimization

1

Müssen wir die Anzahl der Bäume in einem zufälligen Wald stimmen?

Softwareimplementierungen von zufälligen Gesamtstrukturklassifizierern verfügen über eine Reihe von Parametern, mit denen Benutzer das Verhalten des Algorithmus genau einstellen können, einschließlich der Anzahl der Gesamtstrukturbäume. Ist dies ein Parameter, der auf die gleiche Weise wie , um die Anzahl der Features zu bestimmen , die bei jeder Aufteilung getestet werden …

30 classification optimization random-forest hyperparameter

6

Warum nicht die dritte Ableitung zur numerischen Optimierung verwenden?

Wenn Hessisch so gut für die Optimierung ist (siehe zB Newtons Methode ), warum dann dort aufhören? Verwenden wir die dritte, vierte, fünfte und sechste Ableitung. Warum nicht?

29 optimization gradient-descent hessian

1

XGBoost Loss Funktion Approximation mit Taylor Expansion

Nehmen Sie als Beispiel die objektive Funktion des XGBoost-Modells in der ttt -ten Iteration: L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) where ℓℓ\ell is the loss function, ftftf_t is the ttt'th tree output and ΩΩ\Omega is the regularization. One of the (many) key steps for fast calculation is the approximation: L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), where gigig_i and hihih_i …

28 optimization loss-functions boosting xgboost taylor-series

1

Berechnung der Wiederholbarkeit von Effekten aus einem früheren Modell

Ich bin gerade auf diese Arbeit gestoßen , in der beschrieben wird, wie die Wiederholbarkeit (auch bekannt als Zuverlässigkeit, auch bekannt als Intraclass-Korrelation) einer Messung über Mixed-Effects-Modellierung berechnet wird. Der R-Code wäre: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

Können Freiheitsgrade eine nicht ganzzahlige Zahl sein?

Wenn ich GAM verwende, erhalte ich einen DF-Rest von (letzte Zeile im Code). Was bedeutet das? Über das GAM-Beispiel hinausgehend: Kann die Anzahl der Freiheitsgrade im Allgemeinen eine nicht ganzzahlige Zahl sein?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

3

Was sind die Auswirkungen der Auswahl verschiedener Verlustfunktionen bei der Klassifizierung auf einen ungefähren Verlust von 0 bis 1?

Wir wissen, dass einige objektive Funktionen einfacher zu optimieren sind und andere schwierig. Und es gibt viele Verlustfunktionen, die wir verwenden möchten, die aber schwer zu verwenden sind, zum Beispiel 0-1-Verlust. Wir finden also einige Proxy- Verlust-Funktionen, um die Arbeit zu erledigen. Zum Beispiel verwenden wir den Scharnierverlust oder den …

27 machine-learning classification optimization loss-functions

6

Warum konvexe Optimierung für theoretisches maschinelles Lernen studieren?

Ich arbeite am theoretischen maschinellen Lernen - Transferlernen, um genau zu sein - für meine Promotion. Warum sollte ich aus Neugier einen Kurs zur konvexen Optimierung belegen? Welche Erkenntnisse aus der konvexen Optimierung kann ich für meine Forschung zum theoretischen maschinellen Lernen nutzen?

27 machine-learning optimization convex transfer-learning

6

Warum führen kleinere Gewichte zu einfacheren Regularisierungsmodellen?

Ich habe Andrew Ngs Maschinelles Lernen-Kurs vor ungefähr einem Jahr abgeschlossen und schreibe jetzt meine High-School-Mathematikerkunde über die Funktionsweise der logistischen Regression und Techniken zur Leistungsoptimierung. Eine dieser Techniken ist natürlich die Regularisierung. Ziel der Regularisierung ist es, eine Überanpassung zu verhindern, indem die Kostenfunktion um das Ziel der Modellvereinfachung …

27 regression machine-learning optimization regularization overfitting

1

Schrittweises Beispiel für die automatische Differenzierung im Rückwärtsmodus

Ich bin mir nicht sicher, ob diese Frage hierher gehört, aber sie hängt eng mit den Gradientenmethoden in der Optimierung zusammen, die hier offenbar zum Thema gehören. Sie können auf jeden Fall migrieren, wenn Sie der Meinung sind, dass eine andere Community über bessere Fachkenntnisse in diesem Thema verfügt. Kurz …

27 optimization derivative tensorflow automatic-differentiation

1

Was sind die klassischen Notationen in Statistik, linearer Algebra und maschinellem Lernen? Und wie hängen diese Notationen zusammen?

Wenn wir ein Buch lesen, spielt das Verstehen der Notationen eine sehr wichtige Rolle für das Verständnis des Inhalts. Leider haben verschiedene Communities unterschiedliche Notationskonventionen für die Formulierung des Modells und das Optimierungsproblem. Könnte jemand hier einige Formulierungsnotationen zusammenfassen und mögliche Gründe nennen? Ich werde hier ein Beispiel geben: In …

26 machine-learning probability self-study optimization

6

Zeigt der Gradient in Stochastic Gradient Descent (SGD) bei konvexen Problemen immer auf den globalen Extremwert?

Bei einer konvexen Kostenfunktion, bei der SGD für die Optimierung verwendet wird, haben wir zu einem bestimmten Zeitpunkt während des Optimierungsprozesses einen Gradienten (Vektor). Meine Frage ist, angesichts des Punktes auf der Konvexen, zeigt der Gradient nur in die Richtung, in die die Funktion am schnellsten zunimmt / abnimmt, oder …

25 neural-networks optimization gradient-descent sgd convex

3

Was ist der Grund, warum der Adam Optimizer für den Wert seiner Hyperparameter als robust angesehen wird?

Ich habe über den Adam-Optimierer für Deep Learning gelesen und bin in dem neuen Buch Deep Learning von Bengio, Goodfellow und Courville auf folgenden Satz gestoßen: Adam wird allgemein als ziemlich robust gegenüber der Auswahl von Hyperparametern angesehen, obwohl die Lernrate manchmal von der vorgeschlagenen Standardeinstellung geändert werden muss. Wenn …

24 neural-networks deep-learning optimization hyperparameter adam

1

Wie definiere ich die Abbruchbedingung für den Gradientenabstieg?

Eigentlich wollte ich Sie fragen, wie ich die Abschlussbedingung für den Gefälleabstieg definieren kann. Kann ich es basierend auf der Anzahl der Iterationen stoppen, dh Parameterwerte für beispielsweise 100 Iterationen berücksichtigen? Oder sollte ich so warten, dass die unterschiedlichen Werte für die beiden Parameter 'new' und 'old' in der Größenordnung …

24 algorithms optimization gradient-descent

Als «optimization» getaggte Fragen