Statistiken und Big Data loss-functions

2

Warum gibt es zwei verschiedene Formulierungen / Notationen für logistische Verluste?

Ich habe zwei Arten von Formulierungen für logistische Verluste gesehen. Wir können leicht zeigen, dass sie identisch sind, der einzige Unterschied ist die Definition der Bezeichnung .yyy Formulierung / Notation 1, :y∈{0,+1}y∈{0,+1}y \in \{0, +1\} L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog⁡(p)−(1−y)log⁡(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) Dabei ist p=11+exp(−βTx)p=11+exp⁡(−βTx)p=\frac 1 {1+\exp(-\beta^Tx)} , wobei die logistische Funktion eine reelle Zahl …

23 logistic generalized-linear-model notation loss-functions

2

Was ist die Verlustfunktion von Hard Margin SVM?

1max ( 0 , 1 - yich( w⊺xich+ b ) )max(0,1-yich(w⊺xich+b))\max(0,1-y_i(w^\intercal x_i+b))‖w‖2max(0,1-yi(w⊺xi+b))12∥ w ∥2+ C∑ichmax ( 0 , 1 - yich( w⊺xich+ b ) )12‖w‖2+C∑ichmax(0,1-yich(w⊺xich+b)) \frac{1}{2}\|w\|^2+C\sum_i\max(0,1-y_i(w^\intercal x_i+b)) ∥ w ∥2‖w‖2\|w\|^2max ( 0 , 1 - yich( w⊺xich+ b ) )max(0,1-yich(w⊺xich+b))\max(0,1-y_i(w^\intercal x_i+b)) Bei SVM mit festem Rand ist die gesamte Zielfunktion …

23 svm loss-functions

1

Warum ist die Kostenfunktion von neuronalen Netzen nicht konvex?

Es gibt hier einen ähnlichen Thread ( Kostenfunktion des neuronalen Netzwerks ist nicht konvex? ), Aber ich konnte die Punkte in den Antworten dort nicht verstehen und mein Grund für die erneute Frage, in der Hoffnung, dass dies einige Probleme klären wird: Wenn ich die Funktion für die Summe der …

22 machine-learning neural-networks optimization loss-functions convex

5

Wie kann man die Kosten einer Fehlklassifizierung in zufälligen Wäldern kontrollieren?

Ist es möglich, die Kosten einer Fehlklassifizierung im R-Paket randomForest zu kontrollieren ? In meiner eigenen Arbeit sind falsch negative Ergebnisse (z. B. das Fehlen einer Krankheit) weitaus kostspieliger als falsch positive Ergebnisse. Das Paket rpart ermöglicht es dem Benutzer, Fehlklassifizierungskosten zu kontrollieren, indem eine Verlustmatrix angegeben wird, um Fehlklassifizierungen …

21 r classification random-forest loss-functions metric

3

Trainingsverlust steigt mit der Zeit

Diese Frage hat hier bereits Antworten : Wie kann eine Änderung der Kostenfunktion positiv sein? (1 Antwort) Was soll ich tun, wenn mein neuronales Netzwerk nicht lernt? (5 Antworten) Geschlossen im letzten Monat . Ich trainiere ein Modell (Recurrent Neural Network), um 4 Arten von Sequenzen zu klassifizieren. Während ich …

21 machine-learning neural-networks loss-functions rnn training-error

6

Was ist die Grundidee des maschinellen Lernens zum Schätzen von Parametern?

Die Grundidee der Statistik zur Schätzung von Parametern ist die maximale Wahrscheinlichkeit . Ich frage mich, was der entsprechende Gedanke beim maschinellen Lernen ist. Frage 1: Wäre es fair zu sagen, dass die Grundidee des maschinellen Lernens zur Schätzung von Parametern lautet: "Verlustfunktionen"? [Anmerkung: Ich habe den Eindruck, dass Algorithmen …

19 machine-learning maximum-likelihood loss-functions pac-learning

1

Auswahl zwischen Verlustfunktionen für die binäre Klassifizierung

Ich arbeite in einem Problembereich, in dem häufig ROC-AUC oder AveP (Average Precision) gemeldet werden . Kürzlich habe ich jedoch Papiere gefunden, die stattdessen Log Loss optimieren , während andere über Hinge Loss berichten . Während ich verstehe, wie diese Metriken berechnet werden, fällt es mir schwer , die Kompromisse …

18 loss-functions

3

0-1 Erklärung der Verlustfunktion

Ich versuche zu verstehen, was der Zweck der Verlustfunktion ist, und ich kann es nicht ganz verstehen. Nach meinem Verständnis dient die Verlustfunktion zur Einführung einer Art Metrik, mit der wir die "Kosten" einer falschen Entscheidung messen können. Nehmen wir an, ich habe einen Datensatz von 30 Objekten. Ich habe …

18 machine-learning loss-functions

4

Unter welchen Bedingungen fallen bayesianische und frequentistische Punktschätzer zusammen?

Mit einem flachen Prior fallen die Schätzer ML (Frequentist - Maximum Likelihood) und MAP (Bayesian - Maximum A Posteriori) zusammen. Im Allgemeinen spreche ich jedoch von Punktschätzern, die als Optimierer einer Verlustfunktion abgeleitet wurden. Dh (Bayesian) x (x^(.)=argminE(L(X−x^(y))|y) (Bayesian) x^(.)=argminE(L(X−x^(y))|y) (Bayesian) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(X-\hat …

17 bayesian estimation loss-functions frequentist decision-theory

4

Was ist ein guter Protokollverlust?

Ich versuche, den Protokollverlust und seine Funktionsweise besser zu verstehen, aber eine Sache, die ich nicht zu finden scheine, ist, die Protokollverlustnummer in einen Kontext zu setzen. Wenn mein Modell einen log-Verlust von 0,5 hat, ist das gut? Was ist ein gutes und ein schlechtes Ergebnis? Wie verändern sich diese …

16 machine-learning loss-functions log-loss

2

Was passiert hier, wenn ich bei der Einstellung der logistischen Regression den quadratischen Verlust verwende?

Ich versuche, einen quadratischen Verlust zu verwenden, um eine binäre Klassifizierung für einen Spielzeugdatensatz durchzuführen. Ich verwende einen mtcarsDatensatz, verwende Meile pro Gallone und Gewicht, um die Übertragungsart vorherzusagen. Das folgende Diagramm zeigt die zwei Arten von Übertragungstypdaten in verschiedenen Farben und die Entscheidungsgrenze, die durch verschiedene Verlustfunktionen erzeugt werden. …

16 r machine-learning logistic optimization loss-functions

4

Umfassender Überblick über Verlustfunktionen?

Ich versuche, eine globale Perspektive auf einige der wesentlichen Ideen des maschinellen Lernens zu bekommen, und ich habe mich gefragt, ob es eine umfassende Behandlung der verschiedenen Verlustbegriffe (Quadrat, Protokoll, Scharnier, Proxy usw.) gibt. Ich dachte an eine umfassendere, formale Darstellung von John Langfords hervorragendem Beitrag zur Verlustfunktionssemantik .

16 references loss-functions

5

Erklärung der Yolo-Loss-Funktion

Ich versuche die Yolo v2-Verlustfunktion zu verstehen: λc o o r d∑i = 0S2∑j = 0B1o b jich j[ ( xich- x^ich)2+ ( yich−y^i)2]+λcoord∑i=0S2∑j=0B1objij[(wi−−√−w^i−−√)2+(hi−−√−h^i−−√)2]+∑i=0S2∑j=0B1objij(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1noobjij(Ci−C^i)2+∑i=0S21obji∑c∈classes(pi(c)−p^i(c))2λcoord∑i=0S2∑j=0B1ijobj[(xi−x^i)2+(yi−y^i)2]+λcoord∑i=0S2∑j=0B1ijobj[(wi−w^i)2+(hi−h^i)2]+∑i=0S2∑j=0B1ijobj(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1ijnoobj(Ci−C^i)2+∑i=0S21iobj∑c∈classes(pi(c)−p^i(c))2\begin{align} &\lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(x_i-\hat{x}_i)^2 + (y_i-\hat{y}_i)^2 ] \\&+ \lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(\sqrt{w_i}-\sqrt{\hat{w}_i})^2 +(\sqrt{h_i}-\sqrt{\hat{h}_i})^2 ]\\ &+ \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}(C_i - \hat{C}_i)^2 + \lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{noobj}(C_i - \hat{C}_i)^2 \\ &+ \sum_{i=0}^{S^2} \mathbb{1}_{i}^{obj}\sum_{c …

15 neural-networks loss-functions object-detection yolo

3

Scharnierverlust im Vergleich zu Logistikverlust - Vor- und Nachteilen / Einschränkungen

Der Scharnierverlust kann mit und der logarithmische Verlust mit log ( 1 + exp ( - y i w T x i ) ) definiert werden.max(0,1−yiwTxi)max(0,1−yiwTxi)\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)log(1+exp(−yiwTxi))log(1+exp⁡(−yiwTxi))\text{log}(1 + \exp(-y_i\mathbf{w}^T\mathbf{x}_i)) Ich habe folgende Fragen: Gibt es Nachteile des Scharnierverlusts (z. B. empfindlich gegenüber Ausreißern, wie in http://www.unc.edu/~yfliu/papers/rsvm.pdf erwähnt )? Was sind …

14 machine-learning svm loss-functions computer-vision

2

Warum wird k-means nicht mit Gradientenabstieg optimiert?

Ich weiß, dass k-means normalerweise mit Expectation Maximization optimiert wird . Wir könnten jedoch die Verlustfunktion genauso optimieren wie alle anderen! Ich habe einige Artikel gefunden, die tatsächlich eine stochastische Gradientenabnahme für großräumige k-Mittelwerte verwenden, aber ich konnte meine Frage nicht beantworten. Weiß jemand, warum das so ist? Liegt es …

14 optimization k-means expectation-maximization loss-functions

Als «loss-functions» getaggte Fragen