Als «loss-functions» getaggte Fragen

Eine Funktion, mit der der Unterschied zwischen beobachteten Daten und vorhergesagten Werten gemäß einem Modell quantifiziert wird. Die Minimierung von Verlustfunktionen ist eine Möglichkeit, die Parameter des Modells abzuschätzen.

1
Wie genau wird die Deep Q-Learning Loss-Funktion berechnet?
Ich habe Zweifel, wie genau die Verlustfunktion eines Deep Q-Learning-Netzwerks trainiert wird. Ich verwende ein 2-Schicht-Feedforward-Netzwerk mit linearer Ausgangsschicht und relu versteckten Schichten. Nehmen wir an, ich habe 4 mögliche Aktionen. Somit ist der Ausgang von dem Netzwerk für den aktuellen Zustand ist . Um es konkreter zu machen, nehmen …

1
Ist es in Ordnung, die Cross-Entropy-Loss-Funktion mit Soft Labels zu verwenden?
Ich habe ein Klassifizierungsproblem, bei dem Pixel eher mit weichen Beschriftungen (die Wahrscheinlichkeiten bezeichnen) als mit harten 0,1-Beschriftungen gekennzeichnet werden. Früher mit harter 0,1-Pixel-Markierung lieferte die Kreuzentropieverlustfunktion (sigmoidCross entropyLossLayer von Caffe) anständige Ergebnisse. Ist es in Ordnung, die Sigmoid-Kreuzentropie-Verlustschicht (von Caffe) für dieses Problem der weichen Klassifizierung zu verwenden?

4
Das Training eines neuronalen Netzwerks für die Regression sagt immer den Mittelwert voraus
Ich trainiere ein einfaches Faltungs-Neuronales Netzwerk für die Regression, wobei die Aufgabe darin besteht, die (x, y) Position einer Box in einem Bild vorherzusagen, z. Die Ausgabe des Netzwerks hat zwei Knoten, einen für x und einen für y. Der Rest des Netzwerks ist ein Standard-Faltungsnetzwerk. Der Verlust ist ein …


1
Intuitive Erklärung von Logloss
In mehreren Kaggle-Wettbewerben basierte die Wertung auf "logloss". Dies bezieht sich auf einen Klassifizierungsfehler. Hier ist eine technische Antwort, aber ich suche nach einer intuitiven Antwort. Die Antworten auf diese Frage zur Mahalanobis-Entfernung haben mir sehr gut gefallen , aber PCA ist kein logarithmischer Verlust. Ich kann den Wert verwenden, …

2
Vergleich zwischen Bayes-Schätzern
Betrachten Sie den quadratischen Verlust , wobei vorher gegeben ist, wobei . Sei die Wahrscheinlichkeit. Finden Sie den Bayes-Schätzer .L(θ,δ)=(θ−δ)2L(θ,δ)=(θ−δ)2L(\theta,\delta)=(\theta-\delta)^2π(θ)π(θ)\pi(\theta)π(θ)∼U(0,1/2)π(θ)∼U(0,1/2)\pi(\theta)\sim U(0,1/2)f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}(x), \theta>0δπδπ\delta^\pi Betrachten Sie den gewichteten quadratischen Verlust wobei mit dem vorherigen . Sei die Wahrscheinlichkeit. Finden Sie den Bayes-Schätzer .Lw(θ,δ)=w(θ)(θ−δ)2Lw(θ,δ)=w(θ)(θ−δ)2L_w(\theta,\delta)=w(\theta)(\theta-\delta)^2w(θ)=I(−∞,1/2)w(θ)=I(−∞,1/2)w(\theta)=\mathbb{I}_{(-\infty,1/2)}π1(θ)=I[0,1](θ)π1(θ)=I[0,1](θ)\pi_1(\theta)=\mathbb{I}_{[0,1]}(\theta)f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|θ)=θxθ−1I[0,1](x),θ>0f(x|\theta)=\theta x^{\theta-1}\mathbb{I}_{[0,1]}(x), \theta>0δπ1δ1π\delta^\pi_1 Vergleiche undδπδπ\delta^\piδπ1δ1π\delta^\pi_1 Zuerst bemerkte ich, dass …

1
Was wäre ein Beispiel dafür, wenn L2 eine gute Verlustfunktion zur Berechnung eines posterioren Verlusts ist?
Der L2-Verlust ist zusammen mit dem L0- und L1-Verlust drei eine sehr häufige "Standard" -Verlustfunktion, die verwendet wird, wenn ein Posterior durch den minimalen posterioren erwarteten Verlust zusammengefasst wird. Ein Grund dafür ist vielleicht, dass sie relativ einfach zu berechnen sind (zumindest für 1d-Verteilungen), L0 ergibt den Modus, L1 im …

1
Vergleichen von Residuen zwischen OLS- und Nicht-OLS-Regressionen
Angenommen, Sie möchten ein lineares Modell schätzen: ( Beobachtungen der Antwort und Prädiktoren) nnnp+1p+1p+1E ( yich) = β0+ ∑j = 1pβjxi jE.(yich)=β0+∑j=1pβjxichj\mathbb{E}(y_i) = \beta_0 + \sum_{j=1}^p \beta_j x_{ij} Eine Möglichkeit, dies zu tun, ist die OLS-Lösung, dh wählen Sie die Koeffizienten so, dass die Summe der quadratischen Fehler minimal ist: …

2
Scharnierverlust mit One-vs-All-Klassifikator
Ich betrachte derzeit die uneingeschränkte Urform des Ein-gegen-Alles-Klassifikators ∑i = 1N.ich∑k = 1 ,k ≠ yichN.K.L ( 1 + wk⋅ xich- wyich⋅ xich)∑ich=1N.ich∑k=1,k≠yichN.K.L.(1+wk⋅xich- -wyich⋅xich)\sum\limits_{i=1}^{N_I} \sum\limits_{k=1,\atop k \neq y_i}^{N_K} L(1+ \mathbf{w_k}\cdot\mathbf{x_i}-\mathbf{w_{y_i}}\cdot\mathbf{x_i}) wo N.ichN.ichN_I ist die Anzahl der Instanzen, ist die Anzahl der Klassen, ist die Anzahl der Merkmale, ist eine Datenmatrix, …


1
MSE als Proxy für Pearsons Korrelation bei Regressionsproblemen
TL; DR (zu lang, nicht gelesen): Ich arbeite an einem Zeitreihen-Vorhersageproblem, das ich mit Deep Learning (Keras) als Regressionsproblem formuliere. Ich möchte die Pearson-Korrelation zwischen meiner Vorhersage und den wahren Bezeichnungen optimieren. Ich bin verwirrt über die Tatsache, dass die Verwendung von MSE als Proxy tatsächlich zu besseren Ergebnissen (in …

1
Aufbau einer problemspezifischen Verlustfunktion
Problembeschreibung Ich beginne mit dem Aufbau eines Netzwerks für ein Problem, von dem ich glaube, dass es eine weitaus aufschlussreichere Verlustfunktion haben könnte als eine einfache MSE-Regression. Mein Problem betrifft die Klassifizierung in mehrere Kategorien ( siehe meine Frage zu SO, was ich damit meine), bei der es einen definierten …

1
Verwenden der richtigen Bewertungsregel, um die Klassenmitgliedschaft anhand der logistischen Regression zu bestimmen
Ich verwende die logistische Regression, um die Wahrscheinlichkeit des Eintretens eines Ereignisses vorherzusagen. Letztendlich werden diese Wahrscheinlichkeiten in eine Produktionsumgebung gestellt, in der wir uns so weit wie möglich darauf konzentrieren, unsere "Ja" -Vorhersagen zu treffen. Es ist daher nützlich, eine Vorstellung davon zu haben, welche endgültigen "Treffer" oder "Nicht-Treffer" …

2
Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?
Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly spendist die Antwortvariable. Der Trainingsdatensatz enthält jedoch ungefähr 3 Millionen Zeilen, …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

2
Fügt eine Dichteprognose einen Wert hinzu, der über eine Punktprognose hinausgeht, wenn die Verlustfunktion angegeben wird?
Dichtevorhersagen sind universeller als Punktvorhersagen; Sie liefern Informationen über die gesamte vorhergesagte Verteilung einer Zufallsvariablen und nicht über eine konkrete Funktion derselben (wie den vorhergesagten Mittelwert, den Median, das Quantil usw.). Durch die Verfügbarkeit einer Dichtevorhersage können verschiedene Benutzer relevante Elemente - Punktvorhersagen - auswählen, die für sie von Interesse …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.