Ohne Quellenangabe definiert Wikipedia die Kreuzentropie der diskreten Verteilungen und alsQ
Wer hat als Erster mit dieser Menge begonnen? Und wer hat diesen Begriff erfunden? Ich schaute in:
JE Shore und RW Johnson, "Axiomatische Ableitung des Prinzips der maximalen Entropie und des Prinzips der minimalen Kreuzentropie", Information Theory, IEEE Transactions on, vol. 26, nein. 1, S. 26-37, Januar 1980.
Ich folgte ihrer Einführung in
A. Wehrl, "Allgemeine Eigenschaften der Entropie", Reviews of Modern Physics, vol. 50, nein. 2, S. 221-260, April 1978.
wer benutzt den Begriff nie.
Auch nicht
S. Kullback und R. Leibler, "Über Information und Suffizienz", The Annals of Mathematical Statistics, vol. 22, nein. 1, S. 79-86, 1951.
Ich habe reingeschaut
TM Cover und JA Thomas, Elemente der Informationstheorie (Wiley-Reihe in Telekommunikation und Signalverarbeitung). Wiley-Interscience, 2006.
und
I. Good, "Maximale Entropie für die Formulierung von Hypothesen, insbesondere für mehrdimensionale Kontingenztabellen", The Annals of Mathematical Statistics, vol. 34, nein. 3, S. 911-934, 1963.
Beide Arbeiten definieren Kreuzentropie als Synonym für KL-Divergenz.
Das Originalpapier
CE Shannon, "Eine mathematische Theorie der Kommunikation", Bell System Technical Journal, vol. 27, 1948.
Erwähnt keine Kreuzentropie (und hat eine seltsame Definition von "relativer Entropie": "Das Verhältnis der Entropie einer Quelle zu dem Maximalwert, den sie haben könnte, während sie noch auf dieselben Symbole beschränkt ist").
Schließlich sah ich in ein paar alten Büchern und Papieren von Tribus nach.
Weiß jemand, wie die obige Gleichung heißt und wer sie erfunden hat oder eine schöne Darstellung davon hat?