Statistiken und Big Data loss-functions

5

Welche Verlustfunktion für Klassifizierungsaufgaben mit mehreren Klassen und mehreren Markierungen in neuronalen Netzen?

Ich trainiere ein neuronales Netzwerk, um eine Menge von Objekten in n-Klassen zu klassifizieren. Jedes Objekt kann gleichzeitig mehreren Klassen angehören (Multi-Class, Multi-Label). Ich habe gelesen, dass bei Problemen mit mehreren Klassen generell empfohlen wird, anstelle von mse Softmax und kategoriale Kreuzentropie als Verlustfunktion zu verwenden, und ich verstehe mehr …

64 neural-networks python loss-functions keras cross-entropy

3

Maschinelles Lernen: Soll ich für binäre Vorhersagen eine kategoriale Kreuzentropie oder einen binären Kreuzentropieverlust verwenden?

Zunächst wurde mir klar, dass ich, wenn ich binäre Vorhersagen durchführen muss, mindestens zwei Klassen durch Ausführen einer One-Hot-Codierung erstellen muss. Ist das richtig? Gilt die binäre Kreuzentropie jedoch nur für Vorhersagen mit nur einer Klasse? Wenn ich einen kategorialen Cross-Entropy-Verlust verwenden würde, der normalerweise in den meisten Bibliotheken (wie …

36 machine-learning neural-networks loss-functions tensorflow cross-entropy

5

Kostenfunktion des neuronalen Netzes ist nicht konvex?

Die Kostenfunktion des neuronalen Netzes ist , und es wird behauptet, dass es nicht konvex ist . Ich verstehe nicht ganz, warum das so ist, da es meiner Ansicht nach der Kostenfunktion der logistischen Regression ziemlich ähnlich ist, oder?J( W, B )J(W,b)J(W,b) Wenn es nicht konvex ist, ist also die …

36 neural-networks loss-functions

2

Kostenfunktion in der linearen OLS-Regression

Ich bin ein bisschen verwirrt mit einem Vortrag über lineare Regression von Andrew Ng über Coursera über maschinelles Lernen. Dort gab er eine Kostenfunktion an, die die Quadratsumme wie folgt minimiert: 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 Ich verstehe, woher das kommt. Ich denke, er hat es so gemacht, dass, wenn …

31 regression machine-learning loss-functions

1

Was ist der Unterschied zwischen einer Verlustfunktion und einer Fehlerfunktion?

Ist der Begriff "Verlust" gleichbedeutend mit "Fehler"? Gibt es einen Unterschied in der Definition? Und woher stammt der Begriff "Verlust"? Hinweis: Die hier erwähnte Fehlerfunktion ist nicht mit einem normalen Fehler zu verwechseln.

31 loss-functions

4

Welche Verlustfunktion ist für die logistische Regression richtig?

Ich habe zwei Versionen der Verlustfunktion für die logistische Regression gelesen. Welche davon ist richtig und warum? Aus dem maschinellen Lernen , Zhou ZH (auf Chinesisch), mit β=(w,b) and βTx=wTx+bβ=(w,b) and βTx=wTx+b\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b : l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))(1)(1)l(β)=∑i=1m(−yiβTxi+ln⁡(1+eβTxi))l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1 Aus meinem College-Kurs mit zi=yif(xi)=yi(wTxi+b)zi=yif(xi)=yi(wTxi+b)z_i = …

31 logistic loss-functions

5

Umgang mit hierarchischen / verschachtelten Daten beim maschinellen Lernen

Ich werde mein Problem mit einem Beispiel erklären. Angenommen, Sie möchten das Einkommen einer Person anhand einiger Attribute vorhersagen: {Alter, Geschlecht, Land, Region, Stadt}. Sie haben einen Trainingsdatensatz wie diesen train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

XGBoost Loss Funktion Approximation mit Taylor Expansion

Nehmen Sie als Beispiel die objektive Funktion des XGBoost-Modells in der ttt -ten Iteration: L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) where ℓℓ\ell is the loss function, ftftf_t is the ttt'th tree output and ΩΩ\Omega is the regularization. One of the (many) key steps for fast calculation is the approximation: L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), where gigig_i and hihih_i …

28 optimization loss-functions boosting xgboost taylor-series

3

Was sind die Auswirkungen der Auswahl verschiedener Verlustfunktionen bei der Klassifizierung auf einen ungefähren Verlust von 0 bis 1?

Wir wissen, dass einige objektive Funktionen einfacher zu optimieren sind und andere schwierig. Und es gibt viele Verlustfunktionen, die wir verwenden möchten, die aber schwer zu verwenden sind, zum Beispiel 0-1-Verlust. Wir finden also einige Proxy- Verlust-Funktionen, um die Arbeit zu erledigen. Zum Beispiel verwenden wir den Scharnierverlust oder den …

27 machine-learning classification optimization loss-functions

2

Dice-Coefficient-Loss-Funktion gegen Cross-Entropie

Wie entscheiden Sie sich beim Trainieren von neuronalen Netzen mit Pixelsegmentierung, wie z. B. vollständig faltungsorientierten Netzen, für die Verwendung der Funktion für den entropieübergreifenden Verlust im Vergleich zur Funktion für den Verlust des Würfelkoeffizienten? Mir ist klar, dass dies eine kurze Frage ist, aber ich bin mir nicht sicher, …

27 neural-networks loss-functions cross-entropy

1

Der Trainingsverlust steigt und fällt. Was ist los?

Mein Trainingsverlust geht runter und dann wieder rauf. Es ist sehr komisch. Der Kreuzvalidierungsverlust verfolgt den Trainingsverlust. Was ist los? Ich habe zwei gestapelte LSTMS wie folgt (auf Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') Ich trainiere es für 100 Epochen: …

26 machine-learning neural-networks loss-functions lstm

3

Gradient des Scharnierverlustes

Ich versuche, eine grundlegende Gradientenabsenkung zu implementieren und teste sie mit einer Scharnierverlustfunktion, dh . Ich bin jedoch verwirrt über den Gradienten des Scharnierverlustes. Ich habe den Eindruck, dass es so istlhinge=max(0,1−y x⋅w)lhinge=max(0,1−y x⋅w)l_{\text{hinge}} = \max(0,1-y\ \boldsymbol{x}\cdot\boldsymbol{w}) ∂∂wlhinge={−y x0if y x⋅w<1if y x⋅w≥1∂∂wlhinge={−y xif y x⋅w<10if y x⋅w≥1 \frac{\partial }{\partial …

25 loss-functions

2

Quantile Regression: Verlustfunktion

Ich versuche, die Quantil-Regression zu verstehen, aber eine Sache, die mich leiden lässt, ist die Wahl der Verlustfunktion. ρτ(u)=u(τ−1{u<0})ρτ(u)=u(τ−1{u<0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) Ich weiß, dass das Minimum der Erwartung von gleich dem -Quantil ist, aber was ist der intuitive Grund, mit dieser Funktion zu beginnen? Ich sehe keinen Zusammenhang zwischen der …

24 quantiles loss-functions quantile-regression

2

Wie kann eine asymmetrische Verlustfunktion für die Regression entworfen und implementiert werden?

Problem Bei der Regression berechnet man normalerweise den mittleren quadratischen Fehler (MSE) für eine Stichprobe: , um die Qualität eines Prädiktors zu messen.MSE = 1n∑i = 1n( g( xich) - gˆ( xich) )2MSE=1n∑ich=1n(G(xich)-G^(xich))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 Im Moment arbeite ich an einem Regressionsproblem, bei dem das Ziel …

24 regression error loss-functions

4

Mittelwert der L1-Regressionsschätzung, Mittelwert der L2-Regressionsschätzung?

Daher wurde mir die Frage gestellt, welche zentralen Kennzahlen L1 (dh Lasso) und L2 (dh Gratregression) geschätzt wurden. Die Antwort lautet L1 = Median und L2 = Mittelwert. Gibt es irgendeine Art von intuitivem Denken dafür? Oder muss es algebraisch ermittelt werden? Wenn ja, wie mache ich das?

24 lasso regularization loss-functions ridge-regression

Als «loss-functions» getaggte Fragen