KL-Divergenz ist ein natürlicher Weg, um den Unterschied zwischen zwei Wahrscheinlichkeitsverteilungen zu messen. Die Entropie einer Verteilung p gibt die minimal mögliche Anzahl von Bits pro Nachricht an, die (im Durchschnitt) benötigt würden, um Ereignisse, die aus p gezogen werden, verlustfrei zu codieren . Um diese Grenze zu erreichen, müsste ein optimaler Code für p verwendet werden , der Ereignissen mit höherer Wahrscheinlichkeit kürzere Codewörter zuweist. D K L ( p ∥ q ) kann als die erwartete Anzahl zusätzlicher Bits pro Nachricht interpretiert werden, die zum Codieren von Ereignissen erforderlich sind, die aus der wahren Verteilung p gezogen werdenH(p)pppDKL(p∥q)p, wenn Sie einen optimalen Code für die Verteilung von anstelle von p verwenden . Es hat einige nette Eigenschaften zum Vergleichen von Verteilungen. Wenn beispielsweise p und q gleich sind, ist die KL-Divergenz 0.qppq
H(p,q)pqDKL(p∥q)H(p,q)pH(p,q)qppH(p,q)p
KL-Divergenz und Kreuzentropie hängen zusammen mit:
DKL(p∥q)=H(p,q)−H(p)
pqp
pq
pH(p)pH(p)p
pqDKL(p∥q)pqj∣ipj∣i ist die Kullback-Leibler-Divergenz (die in diesem Fall gleich der Querentropie bis zu einer additiven Konstante ist). "
van der Maaten und Hinton (2008) . Visualisierung von Daten mit t-SNE.