Als «loss-functions» getaggte Fragen

Eine Funktion, mit der der Unterschied zwischen beobachteten Daten und vorhergesagten Werten gemäß einem Modell quantifiziert wird. Die Minimierung von Verlustfunktionen ist eine Möglichkeit, die Parameter des Modells abzuschätzen.

2
Ist es üblich, den mittleren Verlust über die Chargen anstelle der Summe zu minimieren?
Tensorflow enthält ein Beispiel-Tutorial zur Klassifizierung von CIFAR-10 . Im Tutorial wird der durchschnittliche Kreuzentropieverlust über die Charge minimiert. def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits: Logits from inference(). labels: Labels from distorted_inputs or inputs(). 1-D tensor of …

1
Bias-Varianz-Zerlegung
In Abschnitt 3.2 von Bishops Mustererkennung und maschinellem Lernen erörtert er die Bias-Varianz-Zerlegung und erklärt, dass für eine quadratische Verlustfunktion der erwartete Verlust in einen quadratischen Bias-Term zerlegt werden kann (der beschreibt, wie weit die durchschnittlichen Vorhersagen von den wahren abweichen Modell), ein Varianzterm (der die Streuung der Vorhersagen um …

1
Warum ist der naive Bayes-Klassifikator für einen 0: 1-Verlust optimal?
Der Naive Bayes-Klassifikator ist der Klassifikator, der Elemente einer Klasse auf der Grundlage der Maximierung des hinteren für die Klassenzugehörigkeit zuordnet und davon ausgeht, dass die Merkmale der Elemente unabhängig sind.C P ( C | x )xxxCCCP( C| x)P(C|x)P(C|x) Der 0-1-Verlust ist der Verlust, der einer Fehlklassifizierung einen Verlust von …

2
Klassifizierung mit lauten Etiketten?
Ich versuche, ein neuronales Netzwerk für die Klassifizierung zu trainieren, aber die Beschriftungen, die ich habe, sind ziemlich laut (ungefähr 30% der Beschriftungen sind falsch). Der Kreuzentropieverlust funktioniert zwar, aber ich habe mich gefragt, ob es in diesem Fall Alternativen gibt, die effektiver sind. oder ist der Kreuzentropieverlust das Optimum? …

2
Warum ist eine 0-1-Verlustfunktion nicht umsetzbar?
In Ian Goodfellows Deep Learning- Buch steht das geschrieben Manchmal ist die Verlustfunktion, die uns tatsächlich am Herzen liegt (z. B. Klassifizierungsfehler), nicht effizient zu optimieren. Beispielsweise ist eine genaue Minimierung des erwarteten 0-1-Verlusts selbst für einen linearen Klassifizierer normalerweise nicht möglich (exponentiell in der Eingabedimension). In solchen Situationen optimiert …

2
Unterschiedliche Definitionen der Kreuzentropieverlustfunktion
Ich habe mit dem Neuralnetworksanddeeplearning dot com Tutorial angefangen, etwas über neuronale Netze zu lernen. Insbesondere im 3. Kapitel gibt es einen Abschnitt über die Kreuzentropiefunktion und definiert den Kreuzentropieverlust als: C.= - 1n∑x∑j( yjlneinL.j+ ( 1 -yj)ln( 1 -aL.j) )C.=- -1n∑x∑j(yjln⁡einjL.+(1- -yj)ln⁡(1- -einjL.))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln …

5
Welche Verlustfunktion sollte ich für die binäre Erkennung bei Gesichtserkennung / Nicht-Gesichtserkennung in CNN verwenden?
Ich möchte Deep Learning verwenden, um eine binäre Erkennung von Gesichtern / Nicht-Gesichtern zu trainieren. Welchen Verlust soll ich verwenden ? Ich denke, es ist SigmoidCrossEntropyLoss oder Hinge-loss . Stimmt das, aber ich frage mich auch, ob ich Softmax verwenden soll, aber nur mit zwei Klassen?

1
Approximation zweiter Ordnung der Verlustfunktion (Deep Learning Book, 7.33)
In Goodfellow's (2016) Buch über tiefes Lernen sprach er über die Gleichwertigkeit eines frühen Stopps der L2-Regularisierung ( https://www.deeplearningbook.org/contents/regularization.html Seite 247). Die quadratische Approximation der Kostenfunktion jjj ist gegeben durch: J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) wobei HHH die hessische Matrix ist (Gl. 7.33). Fehlt dies mittelfristig? Taylorentwicklung sollte sein: f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2


3
Welche Verlustfunktion sollte man verwenden, um einen binären Klassifikator mit hoher Präzision oder hohem Rückruf zu erhalten?
Ich versuche, einen Detektor für Objekte zu erstellen, die sehr selten vorkommen (in Bildern), und plane, einen binären CNN-Klassifikator zu verwenden, der in einem Schiebe- / Größenänderungsfenster angewendet wird. Ich habe ausgeglichene 1: 1-Positiv-Negativ-Trainings- und Testsätze erstellt (ist es in einem solchen Fall übrigens richtig?), Und der Klassifikator ist in …

1
Scikit Binomial Deviance Loss-Funktion
Dies ist die Binomial-Deviance-Loss-Funktion von scikit GradientBoosting. def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: return (-2.0 / sample_weight.sum() * …

2
Perzentilverlustfunktionen
Die Lösung des Problems: minmE[|m−X|]minmE[|m−X|] \min_{m} \; E[|m-X|] ist bekanntlich der Median von , aber wie sieht die Verlustfunktion für andere Perzentile aus? Beispiel: Das 25. Perzentil von X ist die Lösung für:XXX minmE[L(m,X)]minmE[L(m,X)] \min_{m} \; E[ L(m,X) ] Was ist in diesem Fall?LLL

3
MAP ist eine Lösung für
Ich bin in einem der Online-Kurse auf diese Folien (Folie 16 und 17) gestoßen. Der Ausbilder versuchte zu erklären, wie die maximale posteriore Schätzung (MAP) tatsächlich die Lösung L(θ)=I[θ≠θ∗]L(θ)=I[θ≠θ∗]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}] , wobei θ∗θ∗\theta^{*} der wahre Parameter ist. Kann jemand bitte erklären, wie das folgt? Bearbeiten: Folien hinzugefügt, …

1
Welche Verlustfunktion sollte ich verwenden, um ein seq2seq RNN-Modell zu bewerten?
Ich arbeite an der Arbeit von Cho 2014 , in der die Encoder-Decoder-Architektur für die seq2seq-Modellierung vorgestellt wurde. In der Arbeit scheinen sie die Wahrscheinlichkeit der Ausgabe bei gegebener Eingabe (oder deren negative Log-Wahrscheinlichkeit) als Verlustfunktion für eine Eingabe der Länge und Ausgabe der Länge :xxxMMMyyyNNN P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y_1, …, y_N | …

1
Wie passt ein Schätzer, der eine gewichtete Summe aus quadratischer Verzerrung und Varianz minimiert, in die Entscheidungstheorie?
Okay - meine ursprüngliche Nachricht konnte keine Antwort auslösen. Lassen Sie mich die Frage anders stellen. Ich werde zunächst mein Verständnis der Schätzung aus einer entscheidungstheoretischen Perspektive erläutern. Ich habe keine formelle Ausbildung und es würde mich nicht überraschen, wenn mein Denken in irgendeiner Weise fehlerhaft ist. Angenommen, wir haben …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.