Ich habe ein ähnliches Problem erlebt.
Ich habe meinen Binärklassifikator für neuronale Netze mit einem Kreuzentropieverlust trainiert. Hier das Ergebnis der Kreuzentropie als Funktion der Epoche. Rot ist für das Trainingsset und Blau ist für das Testset.
Durch das Zeigen der Genauigkeit hatte ich die Überraschung, eine bessere Genauigkeit für Epoche 1000 im Vergleich zu Epoche 50 zu erhalten, sogar für das Test-Set!
Um die Zusammenhänge zwischen Kreuzentropie und Genauigkeit zu verstehen, habe ich mich mit einem einfacheren Modell befasst, der logistischen Regression (mit einer Eingabe und einer Ausgabe). Im Folgenden werde ich diese Beziehung nur in drei speziellen Fällen veranschaulichen.
Im Allgemeinen ist der Parameter, bei dem die Querentropie minimal ist, nicht der Parameter, bei dem die Genauigkeit maximal ist. Wir können jedoch eine gewisse Beziehung zwischen der Kreuzentropie und der Genauigkeit erwarten.
[Im Folgenden gehe ich davon aus, dass Sie wissen, was Kreuzentropie ist, warum wir sie anstelle von Genauigkeit verwenden, um das Modell zu trainieren usw. Wenn nicht, lesen Sie bitte zuerst Folgendes: Wie interpretieren Sie eine Kreuzentropie-Bewertung? ]
Abbildung 1 Hier soll gezeigt werden, dass der Parameter, bei dem die Kreuzentropie minimal ist, nicht der Parameter ist, bei dem die Genauigkeit maximal ist, und warum.
Hier sind meine Beispieldaten. Ich habe 5 Punkte und zum Beispiel hat Eingang -1 zu Ausgang 0 geführt.
Kreuzentropie.
Nach Minimierung der Kreuzentropie erhalte ich eine Genauigkeit von 0,6. Der Schnitt zwischen 0 und 1 erfolgt bei x = 0,52. Für die 5 Werte erhalte ich jeweils eine Kreuzentropie von: 0,14, 0,30, 1,07, 0,97, 0,43.
Richtigkeit.
Nachdem ich die Genauigkeit auf einem Gitter maximiert habe, erhalte ich viele verschiedene Parameter, die zu 0,8 führen. Dies kann direkt angezeigt werden, indem der Schnitt x = -0,1 gewählt wird. Nun, Sie können auch x = 0,95 auswählen, um die Sätze zu schneiden.
Im ersten Fall ist die Kreuzentropie groß. In der Tat ist der vierte Punkt weit vom Schnitt entfernt und weist eine große Kreuzentropie auf. Ich erhalte nämlich jeweils eine Kreuzentropie von: 0,01, 0,31, 0,47, 5,01, 0,004.
Im zweiten Fall ist auch die Kreuzentropie groß. In diesem Fall ist der dritte Punkt weit vom Schnitt entfernt und weist eine große Querentropie auf. Ich erhalte jeweils eine Kreuzentropie von: 5e-5, 2e-3, 4,81, 0,6, 0,6.
eineinb
n = 100a = 0,3b = 0,5
bbein
ein
a = 0,3
n = 10000a = 1b = 0
Ich denke, wenn das Modell genug Kapazität hat (genug, um das wahre Modell aufzunehmen) und wenn die Daten groß sind (dh die Stichprobengröße wird unendlich), kann die Querentropie minimal sein, wenn die Genauigkeit maximal ist, zumindest für das logistische Modell . Ich habe keinen Beweis dafür, wenn jemand eine Referenz hat, bitte teilen.
Bibliografie: Das Thema, das Quertropie und Genauigkeit miteinander verbindet, ist interessant und komplex, aber ich kann keine Artikel finden, die sich damit befassen ... Genauigkeit zu studieren ist interessant, weil jeder seine Bedeutung verstehen kann, obwohl es sich um eine falsche Bewertungsregel handelt.
Hinweis: Zunächst möchte ich auf dieser Website eine Antwort finden. Es gibt zahlreiche Beiträge, die sich mit dem Zusammenhang zwischen Genauigkeit und Kreuzentropie befassen, aber nur wenige Antworten: Vergleichbare Traing- und Test-Kreuzentropien führen zu sehr unterschiedlichen Genauigkeiten . Validierungsverlust sinkt, aber Validierungsgenauigkeit verschlechtert sich ; Zweifel an der kategorialen Kreuzentropieverlustfunktion ; Logverlust als Prozentsatz interpretieren ...