Wie wird die Shannon-Entropie oder die Shannon-Information interpretiert, wenn eine relative, normalisierte Nutzfunktion als pmf behandelt wird?

10

Angenommen, ist eine Menge sich gegenseitig ausschließender Ergebnisse einer diskreten Zufallsvariablen und ist eine Dienstprogrammfunktion, bei der , usw. ist. $\Omega$ $f$ $0 < f(\omega) \leq 1$ $\sum_\Omega f(\omega) = 1$

Wenn gleichmäßig über verteilt und a ist Wahrscheinlichkeitsmassenfunktion , die Shannon - Entropie ist , maximiert ( , und wenn ein Element in die gesamte Masse von , wird die Shannon-Entropie minimiert ( tatsächlich ). Dies entspricht Intuitionen über Überraschung (oder Unsicherheitsreduzierung ) und Ergebnisse und Unsicherheit (oder erwartete Überraschung ) und Zufallsvariablen: $f$ $\Omega$ $f$ $H(\Omega) = \sum_{\Omega}f(\omega)log\frac{1}{f(\omega)}$ $=log|\Omega|)$ $\Omega$ $f$ $0$

Wenn gleichmäßig verteilt ist, wird die Unsicherheit maximiert, und je mehr Ergebnisse es gibt, dass die Masse gleichmäßig verteilt wird, desto unsicherer sind wir. $f$
Wenn seine gesamte Masse in einem Ergebnis konzentriert hat, haben wir keine Unsicherheit. $f$
Wenn wir einem Ergebnis eine Wahrscheinlichkeit von zuweisen , erhalten wir keine Informationen (sind "nicht überrascht"), wenn wir sie tatsächlich beobachten. $1$
Wenn wir einem Ergebnis eine Wahrscheinlichkeit zuweisen , die immer näher an , wird die Beobachtung des tatsächlichen Auftretens immer informativer ("überraschend"). $0$

(Dies alles sagt natürlich nichts über die viel konkretere - aber weniger epistemische - Kodierungsinterpretation von Shannon-Informationen / Entropie aus.)

Wenn jedoch die Interpretation einer Dienstprogrammfunktion hat , gibt es eine sinnliche Interpretation von oder ? Es scheint mir, dass es Folgendes geben könnte: $f$ $log\frac{1}{f(\omega)}$ $\sum f(\omega)log\frac{1}{f(\omega)}$

Wenn als PMF eine gleichmäßige Verteilung über , entspricht als Nutzenfunktion der Gleichgültigkeit gegenüber den Ergebnissen, die nicht größer sein könnten * $f$ $\Omega$ $f$
Eine Nutzenfunktion, bei der ein Ergebnis den gesamten Nutzen hat und der Rest keine (so verzerrt wie möglich), entspricht sehr starken relativen Präferenzen - einem Mangel an Gleichgültigkeit.

Gibt es eine Referenz, die dies erweitert? Habe ich etwas über die Einschränkungen beim Vergleich von Wahrscheinlichkeitsmassenfunktionen und normalisierten relativen Dienstprogrammen über diskrete Zufallsvariablen übersehen?

* Ich bin mir der Indifferenzkurven bewusst und sehe aus verschiedenen Gründen nicht, wie sie für meine Frage relevant sein könnten, angefangen mit meinem Fokus auf einen kategorialen Probenraum und der Tatsache, dass ich nicht an 'Indifferenz' an sich interessiert bin. sondern wie man Dienstprogramme als Wahrscheinlichkeiten interpretiert und wie man Funktionen auf Wahrscheinlichkeiten interpretiert, wenn die fragliche (diskrete) 'Wahrscheinlichkeitsverteilung' tatsächlich oder (zusätzlich) die Interpretation einer Nutzenfunktion hat.

— EM23
quelle

Ich habe keine Antwort, aber Ihre Frage lässt mich daran denken, Entropie für das Problem des fairen Kuchenschneidens zu verwenden: en.wikipedia.org/wiki/Fair_cake-cutting Das Standardmodell ist, dass der Kuchen ein Intervall ist [0, 1], und es gibt

Agenten mit unterschiedlichen normalisierten Wertmaßen im Intervall. Es wird angenommen, dass die Maßnahmen nicht atomar sind, es gibt jedoch keine weitere Annahme zu ihrer "Entropie". Es kann interessant sein zu überlegen, was wir über Probleme beim Schneiden von Kuchen sagen können, bei denen die Nutzfunktionen die Entropie begrenzt haben.

n

$n$

— Erel Segal-Halevi

3

Vor der Diskussion von Shannons Entropie sollte noch ein weiterer Punkt besprochen werden: Es scheint, dass Sie eher an den Nutzen des Kardinals als an die Ordnungszahl denken .

In beiden Fällen können natürlich "normalisierte" Dienstprogrammfunktionen abgeleitet werden. Das Konzept der "relativen Präferenz" kann jedoch nur im Kontext des Kardinalnutzens definiert und gemessen werden.

Und das Problem tritt nicht bei den beiden von Ihnen beschriebenen Extremen auf, sondern in allen möglichen Zwischenfällen.

Ein einfaches Beispiel: Nehmen Sie an, dass es drei "Ergebnisse" gibt, (z. B. Verbrauchswerte oder jeweils drei verschiedene Waren in einer bestimmten Menge). Ihre Dienstprogrammfunktion hat ihnen die Werte zugewiesen $A, B, C$

V. (EIN) = 1, V. (B.) = 9, V. (C.) = 90

$V(A) = 1, \;\;V(B) = 9,\;\; V(C) = 90$

Unter ordinaler Nützlichkeit sagt uns dies nur das

EIN <_{p r} B. <_{p r} C.

$A <_{pr} B <_{pr} C$

Sicherlich können wir diese normalisieren, indem wir durch dividieren, um zu erhalten $100$

und die Rangfolge der drei Ergebnisse bleibt erhalten

{U.}_{V.} (EIN) = 0,01, {U.}_{V.} (B.) = 0,09, {U.}_{V.} (C.) = 0,9

$U_V(A)=0.01, \;\; U_V(B) = 0.09,\;\; U_V(C) =0.9$

Aber unter Ordinal Utility könnten wir sehr gut eine andere Utility-Funktion verwenden, die zugewiesen würde

W. (EIN) = 31, W. (B.) = 32, W. (C.) = 37

$W(A) = 31, \;\;W(B) = 32,\;\; W(C) = 37$

und erhalten

{U.}_{W.} (EIN) = 0,31, {U.}_{W.} (B.) = 0,32, {U.}_{W.} (C.) = 0,37

$U_W(A)=0.31, \;\; U_W(B) = 0.32,\;\; U_W(C) =0.37$

Die Rangfolge ist dieselbe, so dass die beiden Dienstprogrammfunktionen und unter dem ordinalen Dienstprogramm äquivalent sind . $V$ $W$

In dem, was Sie beschreiben, repräsentiert die Dienstprogrammfunktion andere relative Präferenzen als und ist daher nicht dieselbe Dienstprogrammfunktion. Dies ist jedoch nur unter dem Kardinalnutzen sinnvoll , bei dem angenommen wird, dass quantitative Vergleiche zwischen Nutzennummern eine Bedeutung haben. $W$ $V$

Kennen Sie die Probleme rund um den Kardinalnutzen?

— Alecos Papadopoulos
quelle

V

$V$

U

$U$

3

Lassen Sie uns nach dem Austausch mit dem OP in meiner anderen Antwort ein wenig mit seinem Ansatz arbeiten.

$X$ $X = \{x_1,...,x_k\}$ $\Pr(X=x_i)=p_i, i=1,...,k$

$X$ $u(x_i) > 0\; \forall i$

\begin{matrix} (1) & w (X.) :: w (x_{ich}) = \frac{u (x_{ich})}{\sum_{ich = 1}^{k} u (x_{ich})}, ich = 1, . . ., k \end{matrix}

$w(X): w(x_i) = \frac {u(x_i)}{\sum_{i=1}^ku(x_i)},\;\;i=1,...,k \tag{1}$

und das wird uns gesagt

\begin{matrix} (2) & w (x_{ich}) = p_{ich} \end{matrix}

$w(x_i) = p_i \tag{2}$

$w(x_i)$ $w(x_i)$

$w(x_i)$

\begin{matrix} (3) & E. [w (X.)]] = \sum_{ich = 1}^{k} p_{ich} w (x_{ich}) = \sum_{ich = 1}^{k} p_{ich}^{2} \end{matrix}

$E[w(X)] = \sum_{i=1}^kp_iw(x_i) = \sum_{i=1}^kp_i^2 \tag{3}$

$p_i$ $\sum_{i=1}^kp_i=1$

\begin{matrix} (4) & argmin E. [w (X.)]] = p^{*} :: p_{1} = p_{2} = . . . = p_{k} = 1 /. k \end{matrix}

$\text{argmin} E[w(X)] = \mathbf p^*: p_1=p_2=...=p_k=1/k \tag {4}$

und wir haben ein allgemeines Ergebnis erhalten:

$X$

$w(X)$ $E[w(X)]=1/k$

$w(X)$

Ich habe jedoch den Eindruck, dass dies nicht das Ziel des OP ist. Vielmehr betrachtet es Shannons Entropie als eine Metrik, die einige wünschenswerte algebraische Eigenschaften aufweist und möglicherweise etwas von Interesse auf sinnvolle Weise kompakt messen kann.

Dies wurde bereits in der Wirtschaftswissenschaft, insbesondere in der Industrieorganisation, getan, wo Indizes der Marktkonzentration ("Grad des Wettbewerbs / monopolistische Struktur eines Marktes") erstellt wurden. Ich stelle zwei fest, die hier besonders relevant aussehen.

$n$ $s_i$

H. = \sum_{ich = 1}^{n} s_{ich}^{2}

$H = \sum_{i=1}^n s_i^2$

$w(X)$

{R.}_{e} = - - \sum_{ich = 1}^{n} s_{ich} \ln s_{ich}

$R_e = -\sum_{i=1}^n s_i\ln s_i$

Encaoua, D. & Jacquemin, A. (1980). Monopolgrad, Konzentrationsindizes und Eintrittsgefahr. International Economic Review, 87-105. bieten eine axiomatische Ableitung von "zulässigen" Konzentrationsindizes, dh sie definieren die Eigenschaften, die ein solcher Index besitzen muss. Da ihr Ansatz abstrakt ist, glaube ich, dass er nützlich sein kann für das, was das OP erforschen und ihm Bedeutung beimessen möchte.

— Alecos Papadopoulos
quelle

1

$v=v*2-0.5$

Daher müssten Sie zunächst eine aussagekräftige Verhältnisskala für Ihr Dienstprogramm bereitstellen. Eine Möglichkeit, dies zu tun, besteht darin, die natürliche Nutzbarkeitsstufe 0 zu interpretieren. Ohne diese Spezifikation ist die Entropie bedeutungslos.

— HRSE
quelle