Definition und Ursprung von „Kreuzentropie“

15

Ohne Quellenangabe definiert Wikipedia die Kreuzentropie der diskreten Verteilungen und als $P$ $Q$

\begin{aligned} H^{\times} (P; Q) & = - \sum_{x} p (x) \log q (x) . \end{aligned}

$\begin{align} \mathrm{H}^{\times}(P; Q) &= -\sum_x p(x)\, \log q(x). \end{align}$

Wer hat als Erster mit dieser Menge begonnen? Und wer hat diesen Begriff erfunden? Ich schaute in:

JE Shore und RW Johnson, "Axiomatische Ableitung des Prinzips der maximalen Entropie und des Prinzips der minimalen Kreuzentropie", Information Theory, IEEE Transactions on, vol. 26, nein. 1, S. 26-37, Januar 1980.

Ich folgte ihrer Einführung in

A. Wehrl, "Allgemeine Eigenschaften der Entropie", Reviews of Modern Physics, vol. 50, nein. 2, S. 221-260, April 1978.

wer benutzt den Begriff nie.

Auch nicht

S. Kullback und R. Leibler, "Über Information und Suffizienz", The Annals of Mathematical Statistics, vol. 22, nein. 1, S. 79-86, 1951.

Ich habe reingeschaut

TM Cover und JA Thomas, Elemente der Informationstheorie (Wiley-Reihe in Telekommunikation und Signalverarbeitung). Wiley-Interscience, 2006.

und

I. Good, "Maximale Entropie für die Formulierung von Hypothesen, insbesondere für mehrdimensionale Kontingenztabellen", The Annals of Mathematical Statistics, vol. 34, nein. 3, S. 911-934, 1963.

Beide Arbeiten definieren Kreuzentropie als Synonym für KL-Divergenz.

Das Originalpapier

CE Shannon, "Eine mathematische Theorie der Kommunikation", Bell System Technical Journal, vol. 27, 1948.

Erwähnt keine Kreuzentropie (und hat eine seltsame Definition von "relativer Entropie": "Das Verhältnis der Entropie einer Quelle zu dem Maximalwert, den sie haben könnte, während sie noch auf dieselben Symbole beschränkt ist").

Schließlich sah ich in ein paar alten Büchern und Papieren von Tribus nach.

Weiß jemand, wie die obige Gleichung heißt und wer sie erfunden hat oder eine schöne Darstellung davon hat?

information-theory entropy

— Neil G
quelle

7

Es scheint eng mit dem Konzept der Kullback-Leibler-Divergenz verbunden zu sein (siehe Kullback und Leibler, 1951 ). In ihrem Artikel diskutieren Kullback und Leibler die Mittelwerte für die Unterscheidung zwischen zwei Hypothesen (definiert als in den Gleichungen ) und zitieren die Seiten 18-19 von Shannon und Weavers The Mathematical Theory of Communication (1949) und p. 76 von Wieners Kybernetik (1948). $I_{1:2}(E)$ $2.2-2.4$

BEARBEITEN:

Weitere Aliase sind das Kullback-Leibler-Informationsmaß, das relative Informationsmaß, die Querentropie, die I-Divergenz und die Kerridge-Ungenauigkeit .

— Itamar
quelle

Vielen Dank! Ich habe diese Referenzen überprüft, aber ich habe immer noch Probleme, den Begriff "Kreuzentropie" oder eine passende Gleichung zu finden. Bitte lassen Sie mich wissen, ob Sie einen Artikel oder ein Buch gesehen haben.

— Neil G

1

Sie können in Google scholar auch rückwärts nach Artikeln suchen, deren Aliase bis zu einem bestimmten Jahr veröffentlicht wurden (z. B. Cross-Entropy bis 1980 ).

— Itamar

1

Bezüglich Ihrer letzten Bearbeitung interessiere ich mich für den Verlauf des in meiner Frage angegebenen Formulars. Mir ist bereits aufgefallen, dass in frühen Arbeiten "Kreuzentropie" für "KL-Divergenz" verwendet wurde. (Beachten Sie, dass das Kullback-Papier in meiner Frage ist.)

— Neil G

Entschuldigung, ich habe das Kullback-Papier in der Frage

— Itamar

4

Dank des Vorschlags von @ Itamar fand ich eine Erwähnung in:

IJ Good, "Etwas Terminologie und Notation in der Informationstheorie", Proceedings of the IEE - Part C: Monographs, vol. 103, nein. 3, S. 200-204, März 1956.

Es wäre immer noch sehr nützlich für mich, eine schöne Darstellung der Kreuzentropie zu finden.

— Neil G
quelle

2

Vielen Dank dafür - eine gute Zusammenfassung der Hintergrundliteratur. Der Artikel von Shore and Johnson aus dem Jahr 1980 in IEEE ist ein guter Anfang, aber @itamars Verweis auf die gute Monografie von 1956 ist noch besser. Das Konzept scheint aus Shannons Arbeit zu stammen, wobei Kullback & Leiblers AMS-Note von 1951 der Ursprung der gegenwärtigen Verwendung des Begriffs ist. Soweit sich der Ursprung des Begriffs "Kreuzentropie" auf künstliche neuronale Netze bezieht, gibt es einen Begriff, der in einer Veröffentlichung in Science, eingereicht 1994, veröffentlicht 1995, von GE Hinton, P. Dayan, BJ Frey & RM Neal, in Wobei es eine frühe Verwendung des Begriffs "Hemholtz-Maschine" gibt - möglicherweise die erste. URL zum Kopieren: http://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf In diesem Artikel, "Der Wake-Sleep-Algorithmus für unbeaufsichtigte neuronale Netze", heißt es in der Anmerkung vor Gleichung Nr. 5: "Wenn es viele alternative Möglichkeiten zur Beschreibung eines Eingangsvektors gibt, ist es möglich, ein stochastisches Codierungsschema zu entwerfen, das die Vorteile von nutzt Entropie über alternative Beschreibungen [1]. Die Kosten sind dann: (siehe Papier für Gleichung 5) Der zweite Term ist dann die Entropie der Verteilung, die die Erkennungsgewichte den verschiedenen alternativen Darstellungen zuweisen. Später in der Arbeit wird Gleichung Nr. 5 als Gleichung Nr. 8 umgeschrieben, wobei der letzte Term als die Kullback-Leibler-Divergenz zwischen der anfänglichen Wahrscheinlichkeitsverteilung und der hinteren Wahrscheinlichkeitsverteilung beschrieben wird. In der Arbeit heißt es: "Also für zwei generative Modelle, die d die gleiche Wahrscheinlichkeit zuweisen, ) In diesem Artikel wird der Minimierungsprozess für diesen spezifischen Algorithmus immer noch als Minimierung der Kullback-Leibler-Divergenz beschrieben, aber es sieht so aus, als ob der Begriff "Entropie über alternative Beschreibungen" zu "Kreuzentropie" abgekürzt wurde. Ein numerisches Beispiel für die Kreuzentropie mithilfe von TensorFlow finden Sie hier. Es ist hilfreich: ) In diesem Artikel wird der Minimierungsprozess für diesen spezifischen Algorithmus immer noch als Minimierung der Kullback-Leibler-Divergenz beschrieben, aber es sieht so aus, als ob der Begriff "Entropie über alternative Beschreibungen" zu "Kreuzentropie" abgekürzt wurde. Ein numerisches Beispiel für die Kreuzentropie mithilfe von TensorFlow finden Sie hier. Es ist hilfreich: /programming/41990250/what-is-cross-entropy Beachten Sie, dass die Lösung von CE = 0.47965 einfach abgeleitet wird, indem das natürliche Protokoll der Wahrscheinlichkeit .619 verwendet wird. In dem obigen Beispiel bedeutet die Verwendung einer "One-Hot" -Codierung, dass die beiden anderen Anfangswahrscheinlichkeiten und hinteren Wahrscheinlichkeiten aufgrund der Multiplikation mit einer Nullwert-Anfangswahrscheinlichkeit in der Summe für die Kreuzentropie ignoriert werden.

— gemesyscanada
quelle

+1 Das könnte richtig sein. Sie sagen also, 1994 ist der Ursprung der modernen Definition von Kreuzentropie?

— Neil G