Eine Funktion, mit der der Unterschied zwischen beobachteten Daten und vorhergesagten Werten gemäß einem Modell quantifiziert wird. Die Minimierung von Verlustfunktionen ist eine Möglichkeit, die Parameter des Modells abzuschätzen.
Ich trainiere ein neuronales Netzwerk, um eine Menge von Objekten in n-Klassen zu klassifizieren. Jedes Objekt kann gleichzeitig mehreren Klassen angehören (Multi-Class, Multi-Label). Ich habe gelesen, dass bei Problemen mit mehreren Klassen generell empfohlen wird, anstelle von mse Softmax und kategoriale Kreuzentropie als Verlustfunktion zu verwenden, und ich verstehe mehr …
Zunächst wurde mir klar, dass ich, wenn ich binäre Vorhersagen durchführen muss, mindestens zwei Klassen durch Ausführen einer One-Hot-Codierung erstellen muss. Ist das richtig? Gilt die binäre Kreuzentropie jedoch nur für Vorhersagen mit nur einer Klasse? Wenn ich einen kategorialen Cross-Entropy-Verlust verwenden würde, der normalerweise in den meisten Bibliotheken (wie …
Die Kostenfunktion des neuronalen Netzes ist , und es wird behauptet, dass es nicht konvex ist . Ich verstehe nicht ganz, warum das so ist, da es meiner Ansicht nach der Kostenfunktion der logistischen Regression ziemlich ähnlich ist, oder?J( W, B )J(W,b)J(W,b) Wenn es nicht konvex ist, ist also die …
Ich bin ein bisschen verwirrt mit einem Vortrag über lineare Regression von Andrew Ng über Coursera über maschinelles Lernen. Dort gab er eine Kostenfunktion an, die die Quadratsumme wie folgt minimiert: 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 Ich verstehe, woher das kommt. Ich denke, er hat es so gemacht, dass, wenn …
Ist der Begriff "Verlust" gleichbedeutend mit "Fehler"? Gibt es einen Unterschied in der Definition? Und woher stammt der Begriff "Verlust"? Hinweis: Die hier erwähnte Fehlerfunktion ist nicht mit einem normalen Fehler zu verwechseln.
Ich habe zwei Versionen der Verlustfunktion für die logistische Regression gelesen. Welche davon ist richtig und warum? Aus dem maschinellen Lernen , Zhou ZH (auf Chinesisch), mit β=(w,b) and βTx=wTx+bβ=(w,b) and βTx=wTx+b\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b : l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))(1)(1)l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1 Aus meinem College-Kurs mit zi=yif(xi)=yi(wTxi+b)zi=yif(xi)=yi(wTxi+b)z_i = …
Ich werde mein Problem mit einem Beispiel erklären. Angenommen, Sie möchten das Einkommen einer Person anhand einiger Attribute vorhersagen: {Alter, Geschlecht, Land, Region, Stadt}. Sie haben einen Trainingsdatensatz wie diesen train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) …
Nehmen Sie als Beispiel die objektive Funktion des XGBoost-Modells in der ttt -ten Iteration: L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) where ℓℓ\ell is the loss function, ftftf_t is the ttt'th tree output and ΩΩ\Omega is the regularization. One of the (many) key steps for fast calculation is the approximation: L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), where gigig_i and hihih_i …
Wir wissen, dass einige objektive Funktionen einfacher zu optimieren sind und andere schwierig. Und es gibt viele Verlustfunktionen, die wir verwenden möchten, die aber schwer zu verwenden sind, zum Beispiel 0-1-Verlust. Wir finden also einige Proxy- Verlust-Funktionen, um die Arbeit zu erledigen. Zum Beispiel verwenden wir den Scharnierverlust oder den …
Wie entscheiden Sie sich beim Trainieren von neuronalen Netzen mit Pixelsegmentierung, wie z. B. vollständig faltungsorientierten Netzen, für die Verwendung der Funktion für den entropieübergreifenden Verlust im Vergleich zur Funktion für den Verlust des Würfelkoeffizienten? Mir ist klar, dass dies eine kurze Frage ist, aber ich bin mir nicht sicher, …
Mein Trainingsverlust geht runter und dann wieder rauf. Es ist sehr komisch. Der Kreuzvalidierungsverlust verfolgt den Trainingsverlust. Was ist los? Ich habe zwei gestapelte LSTMS wie folgt (auf Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') Ich trainiere es für 100 Epochen: …
Ich versuche, eine grundlegende Gradientenabsenkung zu implementieren und teste sie mit einer Scharnierverlustfunktion, dh . Ich bin jedoch verwirrt über den Gradienten des Scharnierverlustes. Ich habe den Eindruck, dass es so istlhinge=max(0,1−y x⋅w)lhinge=max(0,1−y x⋅w)l_{\text{hinge}} = \max(0,1-y\ \boldsymbol{x}\cdot\boldsymbol{w}) ∂∂wlhinge={−y x0if y x⋅w<1if y x⋅w≥1∂∂wlhinge={−y xif y x⋅w<10if y x⋅w≥1 \frac{\partial }{\partial …
Ich versuche, die Quantil-Regression zu verstehen, aber eine Sache, die mich leiden lässt, ist die Wahl der Verlustfunktion. ρτ(u)=u(τ−1{u<0})ρτ(u)=u(τ−1{u<0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) Ich weiß, dass das Minimum der Erwartung von gleich dem -Quantil ist, aber was ist der intuitive Grund, mit dieser Funktion zu beginnen? Ich sehe keinen Zusammenhang zwischen der …
Problem Bei der Regression berechnet man normalerweise den mittleren quadratischen Fehler (MSE) für eine Stichprobe: , um die Qualität eines Prädiktors zu messen.MSE = 1n∑i = 1n( g( xich) - gˆ( xich) )2MSE=1n∑ich=1n(G(xich)-G^(xich))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 Im Moment arbeite ich an einem Regressionsproblem, bei dem das Ziel …
Daher wurde mir die Frage gestellt, welche zentralen Kennzahlen L1 (dh Lasso) und L2 (dh Gratregression) geschätzt wurden. Die Antwort lautet L1 = Median und L2 = Mittelwert. Gibt es irgendeine Art von intuitivem Denken dafür? Oder muss es algebraisch ermittelt werden? Wenn ja, wie mache ich das?
Ich habe zwei Arten von Formulierungen für logistische Verluste gesehen. Wir können leicht zeigen, dass sie identisch sind, der einzige Unterschied ist die Definition der Bezeichnung .yyy Formulierung / Notation 1, :y∈{0,+1}y∈{0,+1}y \in \{0, +1\} L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog(p)−(1−y)log(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) Dabei ist p=11+exp(−βTx)p=11+exp(−βTx)p=\frac 1 {1+\exp(-\beta^Tx)} , wobei die logistische Funktion eine reelle Zahl …
Es gibt hier einen ähnlichen Thread ( Kostenfunktion des neuronalen Netzwerks ist nicht konvex? ), Aber ich konnte die Punkte in den Antworten dort nicht verstehen und mein Grund für die erneute Frage, in der Hoffnung, dass dies einige Probleme klären wird: Wenn ich die Funktion für die Summe der …
Ist es möglich, die Kosten einer Fehlklassifizierung im R-Paket randomForest zu kontrollieren ? In meiner eigenen Arbeit sind falsch negative Ergebnisse (z. B. das Fehlen einer Krankheit) weitaus kostspieliger als falsch positive Ergebnisse. Das Paket rpart ermöglicht es dem Benutzer, Fehlklassifizierungskosten zu kontrollieren, indem eine Verlustmatrix angegeben wird, um Fehlklassifizierungen …
Diese Frage hat hier bereits Antworten : Wie kann eine Änderung der Kostenfunktion positiv sein? (1 Antwort) Was soll ich tun, wenn mein neuronales Netzwerk nicht lernt? (5 Antworten) Geschlossen im letzten Monat . Ich trainiere ein Modell (Recurrent Neural Network), um 4 Arten von Sequenzen zu klassifizieren. Während ich …
Die Grundidee der Statistik zur Schätzung von Parametern ist die maximale Wahrscheinlichkeit . Ich frage mich, was der entsprechende Gedanke beim maschinellen Lernen ist. Frage 1: Wäre es fair zu sagen, dass die Grundidee des maschinellen Lernens zur Schätzung von Parametern lautet: "Verlustfunktionen"? [Anmerkung: Ich habe den Eindruck, dass Algorithmen …
Ich arbeite in einem Problembereich, in dem häufig ROC-AUC oder AveP (Average Precision) gemeldet werden . Kürzlich habe ich jedoch Papiere gefunden, die stattdessen Log Loss optimieren , während andere über Hinge Loss berichten . Während ich verstehe, wie diese Metriken berechnet werden, fällt es mir schwer , die Kompromisse …
Ich versuche zu verstehen, was der Zweck der Verlustfunktion ist, und ich kann es nicht ganz verstehen. Nach meinem Verständnis dient die Verlustfunktion zur Einführung einer Art Metrik, mit der wir die "Kosten" einer falschen Entscheidung messen können. Nehmen wir an, ich habe einen Datensatz von 30 Objekten. Ich habe …
Mit einem flachen Prior fallen die Schätzer ML (Frequentist - Maximum Likelihood) und MAP (Bayesian - Maximum A Posteriori) zusammen. Im Allgemeinen spreche ich jedoch von Punktschätzern, die als Optimierer einer Verlustfunktion abgeleitet wurden. Dh (Bayesian) x (x^(.)=argminE(L(X−x^(y))|y) (Bayesian) x^(.)=argminE(L(X−x^(y))|y) (Bayesian) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(X-\hat …
Ich versuche, den Protokollverlust und seine Funktionsweise besser zu verstehen, aber eine Sache, die ich nicht zu finden scheine, ist, die Protokollverlustnummer in einen Kontext zu setzen. Wenn mein Modell einen log-Verlust von 0,5 hat, ist das gut? Was ist ein gutes und ein schlechtes Ergebnis? Wie verändern sich diese …
Ich versuche, einen quadratischen Verlust zu verwenden, um eine binäre Klassifizierung für einen Spielzeugdatensatz durchzuführen. Ich verwende einen mtcarsDatensatz, verwende Meile pro Gallone und Gewicht, um die Übertragungsart vorherzusagen. Das folgende Diagramm zeigt die zwei Arten von Übertragungstypdaten in verschiedenen Farben und die Entscheidungsgrenze, die durch verschiedene Verlustfunktionen erzeugt werden. …
Ich versuche, eine globale Perspektive auf einige der wesentlichen Ideen des maschinellen Lernens zu bekommen, und ich habe mich gefragt, ob es eine umfassende Behandlung der verschiedenen Verlustbegriffe (Quadrat, Protokoll, Scharnier, Proxy usw.) gibt. Ich dachte an eine umfassendere, formale Darstellung von John Langfords hervorragendem Beitrag zur Verlustfunktionssemantik .
Der Scharnierverlust kann mit und der logarithmische Verlust mit log ( 1 + exp ( - y i w T x i ) ) definiert werden.max(0,1−yiwTxi)max(0,1−yiwTxi)\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)log(1+exp(−yiwTxi))log(1+exp(−yiwTxi))\text{log}(1 + \exp(-y_i\mathbf{w}^T\mathbf{x}_i)) Ich habe folgende Fragen: Gibt es Nachteile des Scharnierverlusts (z. B. empfindlich gegenüber Ausreißern, wie in http://www.unc.edu/~yfliu/papers/rsvm.pdf erwähnt )? Was sind …
Ich weiß, dass k-means normalerweise mit Expectation Maximization optimiert wird . Wir könnten jedoch die Verlustfunktion genauso optimieren wie alle anderen! Ich habe einige Artikel gefunden, die tatsächlich eine stochastische Gradientenabnahme für großräumige k-Mittelwerte verwenden, aber ich konnte meine Frage nicht beantworten. Weiß jemand, warum das so ist? Liegt es …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.