Wie misst man die Ungleichmäßigkeit einer Verteilung?


28

Ich versuche, eine Metrik zum Messen der Ungleichmäßigkeit einer Verteilung für ein Experiment zu finden, das ich durchführe. Ich habe eine Zufallsvariable, die in den meisten Fällen gleichmäßig verteilt sein sollte, und ich möchte in der Lage sein, Beispiele für Datensätze zu identifizieren (und möglicherweise deren Grad zu messen), bei denen die Variable innerhalb eines bestimmten Bereichs nicht gleichmäßig verteilt ist.

Ein Beispiel für drei Datenreihen mit jeweils 10 Messungen, die die Häufigkeit des Auftretens von Messobjekten darstellen, könnte folgendermaßen aussehen:

a: [10% 11% 10%  9%  9% 11% 10% 10% 12%  8%]
b: [10% 10% 10%  8% 10% 10%  9%  9% 12%  8%]
c: [ 3%  2% 60%  2%  3%  7%  6%  5%  5%  7%]   <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]

Ich möchte in der Lage sein, Verteilungen wie c von solchen wie a und b zu unterscheiden und die Abweichung von c von einer Gleichverteilung zu messen. Wenn es eine Metrik für die Gleichmäßigkeit einer Verteilung gibt (Standardabweichung nahe Null?), Kann ich sie möglicherweise verwenden, um diejenigen mit hoher Varianz zu unterscheiden. Meine Daten haben jedoch möglicherweise nur einen oder zwei Ausreißer, wie im obigen Beispiel c, und ich bin nicht sicher, ob dies auf diese Weise leicht erkennbar ist.

Ich kann etwas hacken, um dies in Software zu tun, suche aber nach statistischen Methoden / Ansätzen, um dies formal zu rechtfertigen. Ich habe vor Jahren Unterricht genommen, aber Statistiken sind nicht meine Region. Dies scheint etwas zu sein, das einen bekannten Ansatz haben sollte. Tut mir leid, wenn irgendetwas davon komplett mit Knochen ist. Danke im Voraus!


Antworten:


18

Wenn Sie nicht nur die Frequenzen, sondern auch die tatsächliche Anzahl haben, können Sie für jede Datenreihe einen -Anpassungstest verwenden. Insbesondere möchten Sie den Test für eine diskrete Gleichverteilung verwenden . Auf diese Weise erhalten Sie einen guten Test , mit dem Sie herausfinden können, welche Datenreihen wahrscheinlich nicht durch eine gleichmäßige Verteilung generiert wurden, aber kein Maß für die Gleichmäßigkeit darstellen.χ2

Es gibt andere mögliche Ansätze, z. B. die Berechnung der Entropie jeder Reihe - die gleichmäßige Verteilung maximiert die Entropie. Wenn die Entropie also verdächtig niedrig ist, würden Sie den Schluss ziehen, dass Sie wahrscheinlich keine gleichmäßige Verteilung haben. Das ist in gewisser Weise ein Maß für die Einheitlichkeit.

Ein weiterer Vorschlag wäre, ein Maß wie die Kullback-Leibler-Divergenz zu verwenden , das die Ähnlichkeit zweier Verteilungen misst.


Ich habe einige Fragen zu Ihrer Antwort: 1. Warum geben Sie an, dass das Chi-Quadrat kein Maß für die Einheitlichkeit darstellt? Ist ein Fit-Test mit einer Gleichverteilung nicht ein Maß für die Gleichmäßigkeit? 2. Wie können wir wissen, wann wir Chi-Quadrat oder Entropie verwenden sollen?
kanzen_master

@kanzen_master: Ich denke, dass die Chi-Quadrat-Statistik als Maß für die Einheitlichkeit angesehen werden kann, aber sie hat einige Nachteile, wie zum Beispiel die fehlende Konvergenz und die Abhängigkeit von den willkürlich platzierten Behältern, die die Anzahl der erwarteten Zählungen in den Zellen benötigt ausreichend groß zu sein, etc. Welches Maß / Test zu verwenden ist, ist jedoch Geschmackssache, und auch die Entropie ist nicht unproblematisch (insbesondere gibt es viele verschiedene Schätzer für die Entropie einer Verteilung). Entropie erscheint mir weniger willkürlich und ist leichter zu interpretieren.
Mittwoch,

8

Zusätzlich zu den guten Ideen von @MansT können Sie sich auch andere Maßnahmen einfallen lassen. Dies hängt jedoch davon ab, was Sie unter "Uneinheitlichkeit" verstehen. Um es einfach zu halten, schauen wir uns 4 Ebenen an. Perfekte Gleichmäßigkeit lässt sich leicht definieren:

25 25 25 25

aber welche der folgenden ist ungleichmäßiger?

20 20 30 30 oder 20 20 25 35

oder sind sie gleich ungleichmäßig?

Wenn Sie glauben, dass sie gleichermaßen ungleichmäßig sind, können Sie ein Maß verwenden, das auf der Summe der absoluten Werte der Abweichungen von der Norm basiert und mit dem maximal möglichen Wert skaliert wird. Dann ist die erste 5 + 5 + 5 + 5 = 20 und die zweite 5 + 5 + 0 + 10 = 20. Wenn Sie jedoch glauben, dass die zweite ungleichmäßiger ist, könnten Sie etwas verwenden, das auf den quadratischen Abweichungen basiert Das erste erhält 25 + 25 + 25 + 25 = 100 und das zweite 25 + 25 + 0 + 100 = 150.


1
Sie scheinen "gleichmäßig verteilt" als "gleich" zu interpretieren, Peter. Ob dies die Absicht des OP ist, ist ein berechtigter Punkt, der angesprochen werden sollte, sollte aber wirklich als Kommentar zur Frage erscheinen.
Whuber

Hi @whuber Das schien das zu sein, was er meinte, aus der Frage. Was könnte es sonst noch bedeuten?
Peter Flom - Reinstate Monica

2
"Gleich" bedeutet, dass die CDF für x μ ist , F ( x ) = 0 für x < μ, während "einheitlich" F ( x ) = ( x - α ) / θ für x [ α bedeutet , α + θ ] . Sie definieren "perfekte Einheitlichkeit" im ersten Sinne, während der statistische Standardsinn der zweite ist.F(x)=1xμF(x)=0x<μF(x)=(x-α)/θx[α,α+θ]
Whuber

@whuber, es scheint mir, dass das erste, was näher ist, was das ursprüngliche Plakat mit "Uniform" gemeint hat. Bei erneuter Betrachtung scheint er / sie "Uniform" zu verwenden, um "geringe Varianz" zu bedeuten.
Makro

Das ist alles, Macro: Das können wir nicht wirklich sagen. Die Frage muss geklärt werden, bevor sie eine Antwort verdient, IMHO. Die akzeptierte Antwort legt nahe, dass das OP "Uniform" im statistischen Standardsinne verwendet.
Whuber

6

Hier ist eine einfache Heuristik: Wenn Sie Elemente in einer Vektorsumme auf (oder einfach jedes Element mit der Summe normalisieren, um dies zu erreichen), kann die Homogenität durch die L2-Norm dargestellt werden, die von 1 reicht1 bis1, wobeiddie Dimension von Vektoren ist.1d1d

Die Untergrenze entspricht derHomogenitätund der Obergrenze des1-Punkt-Vektors.1d1

Um dies auf eine Punktzahl zwischen und 1 zu skalieren , können Sie n √ verwenden01, wobeindie L2-Norm ist.nd-1d-1n

Ein von Ihnen modifiziertes Beispiel mit Elementen, die zur Vereinfachung zu summieren, und allen Vektoren mit derselben Dimension:1

0.10    0.11    0.10    0.09    0.09    0.11    0.10    0.10    0.12    0.08
0.10    0.10    0.10    0.08    0.12    0.12    0.09    0.09    0.12    0.08
0.03    0.02    0.61    0.02    0.03    0.07    0.06    0.05    0.06    0.05

Folgendes ergibt , 0,0051 und 0,4529 für die Zeilen:0,00280,00510,4529

d=size(m,2); 
for i=1:size(m); 
    disp( (norm(m(i,:))*sqrt(d)-1) / (sqrt(d)-1) ); 
end

1
Lp

@whuber das weiß ich nicht und ich kenne keine Forschung zu diesem Thema. Grundsätzlich ist es etwas, das ich als Heuristik verwendet habe und das vielleicht zu dem passt, wonach OP strebt, und ich behaupte nicht wirklich, dass es ein bevorzugter Ansatz ist.
user495285

@whuber - Könntest du theoretisch herausfinden, warum das so gut funktioniert? Ich muss das zitieren.
Ketan

@ user495285 - Dies scheint direkt mit Werten und nicht nur mit Frequenzen zu funktionieren. Nach Ihrer Erfahrung ist es besser, es nur mit Frequenzen zu verwenden, oder ist es in Ordnung, es direkt auf einem Vektor zu verwenden.
Ketan

L2χ2

0

Bin kürzlich darauf gestoßen und habe die Antwort von @ user495285 ergänzt, soweit ich das verstehe:

RnLppRnp

L2p

nd-1d-1
nL2d

Ich bin der Meinung, dass die Nützlichkeit von geometrischen Maßen gegeben ist, wenn angenommen wird, dass jede Position (Dimension) des beschriebenen Raums auf äquivalenten Skalen gemessen wird, z. Die gleichen Annahmen, die einer Änderung der Basen wie PCA / SVD zugrunde liegen, sind hier wahrscheinlich ähnlich. Aber andererseits bin ich kein Mathematiker, also überlasse ich das den Informierteren.


Hört sich hilfreich an. Könnten Sie mir bitte einen Hinweis geben, damit ich das besser verstehe? Ich muss das wirklich zitieren.
Ketan

Sie können jeden linearen Algebra-Text zitieren, der die Lp-Norm abdeckt. Dies ist ein sehr häufiges Thema in der Geometrie: Wie berechnet man einen Abstand zwischen zwei Punkten in einem N-dimensionalen Raum? Abhängig von Ihrem Fachgebiet müssen Sie es möglicherweise nicht einmal zitieren.
Lakinsm
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.