Eine Funktion, mit der der Unterschied zwischen beobachteten Daten und vorhergesagten Werten gemäß einem Modell quantifiziert wird. Die Minimierung von Verlustfunktionen ist eine Möglichkeit, die Parameter des Modells abzuschätzen.
Ich habe Zweifel, wie genau die Verlustfunktion eines Deep Q-Learning-Netzwerks trainiert wird. Ich verwende ein 2-Schicht-Feedforward-Netzwerk mit linearer Ausgangsschicht und relu versteckten Schichten. Nehmen wir an, ich habe 4 mögliche Aktionen. Somit ist der Ausgang von dem Netzwerk für den aktuellen Zustand ist . Um es konkreter zu machen, nehmen …
Ich habe ein Klassifizierungsproblem, bei dem Pixel eher mit weichen Beschriftungen (die Wahrscheinlichkeiten bezeichnen) als mit harten 0,1-Beschriftungen gekennzeichnet werden. Früher mit harter 0,1-Pixel-Markierung lieferte die Kreuzentropieverlustfunktion (sigmoidCross entropyLossLayer von Caffe) anständige Ergebnisse. Ist es in Ordnung, die Sigmoid-Kreuzentropie-Verlustschicht (von Caffe) für dieses Problem der weichen Klassifizierung zu verwenden?
Ich trainiere ein einfaches Faltungs-Neuronales Netzwerk für die Regression, wobei die Aufgabe darin besteht, die (x, y) Position einer Box in einem Bild vorherzusagen, z. Die Ausgabe des Netzwerks hat zwei Knoten, einen für x und einen für y. Der Rest des Netzwerks ist ein Standard-Faltungsnetzwerk. Der Verlust ist ein …
Ich weiß, dass ich es in beide Richtungen gesehen habe. Gibt es also einen Unterschied zwischen den beiden und auf welchen wird häufiger Bezug genommen?
In mehreren Kaggle-Wettbewerben basierte die Wertung auf "logloss". Dies bezieht sich auf einen Klassifizierungsfehler. Hier ist eine technische Antwort, aber ich suche nach einer intuitiven Antwort. Die Antworten auf diese Frage zur Mahalanobis-Entfernung haben mir sehr gut gefallen , aber PCA ist kein logarithmischer Verlust. Ich kann den Wert verwenden, …
Betrachten Sie den quadratischen Verlust , wobei vorher gegeben ist, wobei . Sei die Wahrscheinlichkeit. Finden Sie den Bayes-Schätzer .L(θ,δ)=(θ−δ)2L(θ,δ)=(θ−δ)2L(\theta,\delta)=(\theta-\delta)^2π(θ)π(θ)\pi(\theta)π(θ)∼U(0,1/2)π(θ)∼U(0,1/2)\pi(\theta)\sim U(0,1/2)f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}(x), \theta>0δπδπ\delta^\pi Betrachten Sie den gewichteten quadratischen Verlust wobei mit dem vorherigen . Sei die Wahrscheinlichkeit. Finden Sie den Bayes-Schätzer .Lw(θ,δ)=w(θ)(θ−δ)2Lw(θ,δ)=w(θ)(θ−δ)2L_w(\theta,\delta)=w(\theta)(\theta-\delta)^2w(θ)=I(−∞,1/2)w(θ)=I(−∞,1/2)w(\theta)=\mathbb{I}_{(-\infty,1/2)}π1(θ)=I[0,1](θ)π1(θ)=I[0,1](θ)\pi_1(\theta)=\mathbb{I}_{[0,1]}(\theta)f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}(x), \theta>0δπ1δ1π\delta^\pi_1 Vergleiche undδπδπ\delta^\piδπ1δ1π\delta^\pi_1 Zuerst bemerkte ich, dass …
Der L2-Verlust ist zusammen mit dem L0- und L1-Verlust drei eine sehr häufige "Standard" -Verlustfunktion, die verwendet wird, wenn ein Posterior durch den minimalen posterioren erwarteten Verlust zusammengefasst wird. Ein Grund dafür ist vielleicht, dass sie relativ einfach zu berechnen sind (zumindest für 1d-Verteilungen), L0 ergibt den Modus, L1 im …
Angenommen, Sie möchten ein lineares Modell schätzen: ( Beobachtungen der Antwort und Prädiktoren) nnnp+1p+1p+1E ( yich) = β0+ ∑j = 1pβjxi jE.(yich)=β0+∑j=1pβjxichj\mathbb{E}(y_i) = \beta_0 + \sum_{j=1}^p \beta_j x_{ij} Eine Möglichkeit, dies zu tun, ist die OLS-Lösung, dh wählen Sie die Koeffizienten so, dass die Summe der quadratischen Fehler minimal ist: …
Ich betrachte derzeit die uneingeschränkte Urform des Ein-gegen-Alles-Klassifikators ∑i = 1N.ich∑k = 1 ,k ≠ yichN.K.L ( 1 + wk⋅ xich- wyich⋅ xich)∑ich=1N.ich∑k=1,k≠yichN.K.L.(1+wk⋅xich- -wyich⋅xich)\sum\limits_{i=1}^{N_I} \sum\limits_{k=1,\atop k \neq y_i}^{N_K} L(1+ \mathbf{w_k}\cdot\mathbf{x_i}-\mathbf{w_{y_i}}\cdot\mathbf{x_i}) wo N.ichN.ichN_I ist die Anzahl der Instanzen, ist die Anzahl der Klassen, ist die Anzahl der Merkmale, ist eine Datenmatrix, …
Ich versuche, verschiedene Definitionen der SVM-Kosten-Verlust-Funktion mit weichen Margen in ursprünglicher Form miteinander in Einklang zu bringen. Es gibt einen "max ()" - Operator, den ich nicht verstehe. Ich habe vor vielen Jahren aus dem Lehrbuch " Introduction to Data Mining " von Tan, Steinbach und Kumar (2006) etwas über …
TL; DR (zu lang, nicht gelesen): Ich arbeite an einem Zeitreihen-Vorhersageproblem, das ich mit Deep Learning (Keras) als Regressionsproblem formuliere. Ich möchte die Pearson-Korrelation zwischen meiner Vorhersage und den wahren Bezeichnungen optimieren. Ich bin verwirrt über die Tatsache, dass die Verwendung von MSE als Proxy tatsächlich zu besseren Ergebnissen (in …
Problembeschreibung Ich beginne mit dem Aufbau eines Netzwerks für ein Problem, von dem ich glaube, dass es eine weitaus aufschlussreichere Verlustfunktion haben könnte als eine einfache MSE-Regression. Mein Problem betrifft die Klassifizierung in mehrere Kategorien ( siehe meine Frage zu SO, was ich damit meine), bei der es einen definierten …
Ich verwende die logistische Regression, um die Wahrscheinlichkeit des Eintretens eines Ereignisses vorherzusagen. Letztendlich werden diese Wahrscheinlichkeiten in eine Produktionsumgebung gestellt, in der wir uns so weit wie möglich darauf konzentrieren, unsere "Ja" -Vorhersagen zu treffen. Es ist daher nützlich, eine Vorstellung davon zu haben, welche endgültigen "Treffer" oder "Nicht-Treffer" …
Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …
Dichtevorhersagen sind universeller als Punktvorhersagen; Sie liefern Informationen über die gesamte vorhergesagte Verteilung einer Zufallsvariablen und nicht über eine konkrete Funktion derselben (wie den vorhergesagten Mittelwert, den Median, das Quantil usw.). Durch die Verfügbarkeit einer Dichtevorhersage können verschiedene Benutzer relevante Elemente - Punktvorhersagen - auswählen, die für sie von Interesse …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.