Für Wahrscheinlichkeiten (Anteile oder Anteile) , die zu 1 summiert werden, enthält die Familie mehrere Vorschläge für Maßnahmen (Indizes, Koeffizienten, was auch immer) in diesem Gebiet. Somitpi∑pai[ln(1/pi)]b
a=0,b=0 gibt die Anzahl der beobachteten unterschiedlichen Wörter zurück, was am einfachsten zu bedenken ist, unabhängig davon, ob Unterschiede zwischen den Wahrscheinlichkeiten ignoriert werden. Dies ist immer nützlich, wenn auch nur als Kontext. In anderen Bereichen kann dies die Anzahl der Unternehmen in einem Sektor, die Anzahl der an einem Standort beobachteten Arten usw. sein. Nennen wir dies im Allgemeinen die Anzahl der verschiedenen Elemente .
a=2,b=0 gibt die Gini-Turing-Simpson-Herfindahl-Hirschman-Greenberg-Summe der quadratischen Wahrscheinlichkeiten zurück, die auch als Wiederholungsrate oder Reinheit oder Übereinstimmungswahrscheinlichkeit oder Homozygotie bekannt ist. Es wird oft als sein Komplement oder sein Reziprok bezeichnet, manchmal dann unter anderen Namen, wie Verunreinigung oder Heterozygotie. In diesem Zusammenhang ist es die Wahrscheinlichkeit, dass zwei zufällig ausgewählte Wörter gleich sind, und sein Komplement die Wahrscheinlichkeit, dass zwei Wörter unterschiedlich sind. Die reziproke wird als äquivalente Anzahl gleich gemeinsamer Kategorien interpretiert; Dies wird manchmal als Zahlenäquivalent bezeichnet. Eine solche Interpretation kann gesehen werden, indem man feststellt, dass gleich gemeinsame Kategorien sind (jede Wahrscheinlichkeit also1−∑p2i1/∑p2ik1/k ) impliziere so dass der Kehrwert der Wahrscheinlichkeit nur . Wenn Sie einen Namen auswählen, wird dies höchstwahrscheinlich das Feld verraten, in dem Sie arbeiten. Jedes Feld ehrt seine eigenen Vorfahren, aber ich empfehle die Übereinstimmungswahrscheinlichkeit als einfach und nahezu selbstdefinierend.∑p2i=k(1/k)2=1/kk
H exp ( H ) k H = ∑ k ( 1 / k ) ln [ 1 / ( 1 / k ) ] = ln k exp ( H ) = exp ( ln k ) ka=1,b=1 gibt die Shannon-Entropie zurück, die oft als und bereits in früheren Antworten direkt oder indirekt signalisiert wurde. Der Name Entropie ist hier geblieben, aus einer Mischung von hervorragenden und nicht so guten Gründen, sogar gelegentlich aus Neid der Physik. Beachten Sie, dass die für dieses Maß äquivalenten Zahlen sind, wenn Sie in ähnlicher Weise feststellen, dass gleich häufig vorkommende Kategorien und damit gibt Ihnen zurück . Entropie hat viele großartige Eigenschaften; "Informationstheorie" ist ein guter Suchbegriff.Hexp(H)kH=∑k(1/k)ln[1/(1/k)]=lnkexp(H)=exp(lnk)k
Die Formulierung ist in IJ Good zu finden. 1953. Die Populationshäufigkeit von Arten und die Schätzung von Populationsparametern. Biometrika 40: 237 & ndash; 264.
www.jstor.org/stable/2333344 .
Andere Grundlagen für den Logarithmus (z. B. 10 oder 2) sind je nach Geschmack, Präzedenzfall oder Zweckmäßigkeit gleichermaßen möglich, wobei für einige der obigen Formeln nur einfache Variationen impliziert sind.
Unabhängige Wiederentdeckungen (oder Neuerfindungen) der zweiten Maßnahme sind in mehreren Disziplinen vielfältig und die obigen Namen sind weit von einer vollständigen Liste entfernt.
Gemeinsame Maßnahmen in einer Familie zusammenzubinden, ist nicht nur mathematisch ansprechend. Es unterstreicht, dass es eine Auswahl an Maßnahmen gibt, die von den relativen Gewichten abhängen, die auf seltene und übliche Gegenstände angewendet werden, und verringert so den Eindruck von Schock, der durch eine kleine Fülle scheinbar willkürlicher Vorschläge entsteht. Die Literatur in einigen Bereichen wird durch Papiere und sogar Bücher geschwächt, die auf schwachen Behauptungen beruhen, dass eine von den Autoren bevorzugte Maßnahme die beste Maßnahme ist, die jeder anwenden sollte.
Meine Berechnungen zeigen, dass die Beispiele A und B nur bei der ersten Maßnahme so unterschiedlich sind:
----------------------------------------------------------------------
| Shannon H exp(H) Simpson 1/Simpson #items
----------+-----------------------------------------------------------
A | 0.656 1.927 0.643 1.556 14
B | 0.684 1.981 0.630 1.588 9
----------------------------------------------------------------------
(Einige mögen interessiert sein zu bemerken, dass der hier genannte Simpson (Edward Hugh Simpson, 1922-) der gleiche ist wie der, der durch das Paradoxon des Namens Simpson geehrt wird. Er hat hervorragende Arbeit geleistet, aber er war nicht der erste, der eines der beiden Dinge entdeckt hat er heißt, was wiederum Stiglers Paradoxon ist, was wiederum ....)