Hat diese diskrete Distribution einen Namen?


21

Hat diese diskrete Distribution einen Namen? Fürich1 ...N

f(ich)=1Nj=ichN1j

Ich bin auf diese Distribution durch Folgendes gestoßen: Ich habe eine Liste von Elementen, die nach einer Dienstprogrammfunktion sortiert sind. Ich möchte nach dem Zufallsprinzip eines der Elemente auswählen und mich auf den Anfang der Liste ausrichten. Also wähle ich zuerst einheitlich einen Index zwischen 1 und . Ich wähle dann einen Punkt zwischen den Indizes 1 und . Ich glaube, dieser Prozess führt zu der obigen Verteilung.j N jNjNj


2
Dies ist keine Distribution: Sie ist nicht normalisiert.
whuber

@whuber Ich dachte es zuerst (und kommentierte bevor ich merkte, dass ich den Kommentar missverstanden und entfernt hatte), aber es stellte sich heraus, dass ich die Definition missverstanden hatte. Sofern ich kein weiteres Missverständnis habe, handelt es sich um eine normalisierte Wahrscheinlichkeitsmassenfunktion.
Glen_b

4
Es ist normalisiert. 1/1 erscheint genau einmal in der Summe (es wird in f (1) sein). 1/2 erscheint genau zweimal (es wird in f (1) und f (2) sein). usw. Die Summe all dieser Summen wird also N sein und die Normalisierungskonstante wird als 1 / N gezeigt. Checkt aus.
rcorty

1
Genauer gesagt, ich weiß nicht, wie diese Distribution heißt. Ich weiß auch nicht, wie der von Ihnen beschriebene Prozess zu dieser Distribution führt. Ein Gedanke, den ich hatte, ist, dass es sich wie eine diskrete Version eines Stick-Breaking-Prozesses anhört, der sehr gut zu verstehen ist.
rcorty

@ Glen_b Danke. Ich lese diese auf meinem Handy, das nicht machen deutlich genug. f
whuber

Antworten:


30

Sie haben eine diskretisierte Version der negativen Protokollverteilung, dh der Verteilung, deren Unterstützung und deren PDF f ( t ) = - log t ist .[0,1]f(t)=logt

Um dies zu sehen, definiere ich Ihre Zufallsvariable neu und nehme Werte in der Menge anstelle von { 0 , 1 , 2 , , N } und rufe die auf resultierende Verteilung T . Dann ist meine Behauptung das{0,1/N,2/N,,1}{0,1,2,,N}T

Pr(T=tN)1Nlog(tN)

als während tN,t wird (ungefähr) konstant gehalten. tN

Zunächst ein kleines Simulationsexperiment, das diese Konvergenz demonstriert. Hier ist eine kleine Implementierung eines Samplers aus Ihrer Distribution:

t_sample <- function(N, size) {
  bounds <- sample(1:N, size=size, replace=TRUE)
  samples <- sapply(bounds, function(t) {sample(1:t, size=1)})
  samples / N
}

Hier ist ein Histogramm eines großen Beispiels aus Ihrer Distribution:

ss <- t_sample(100, 200000)
hist(ss, freq=FALSE, breaks=50)

Bildbeschreibung hier eingeben

und hier das logarithmische pdf:

linsp <- 1:100 / 100
lines(linsp, -log(linsp))

Bildbeschreibung hier eingeben

Beginnen Sie mit Ihrem Ausdruck, um zu sehen, warum diese Konvergenz auftritt

Pr(T=tN)=1Nj=tN1j

und multiplizieren und dividieren durch N

Pr(T=tN)=1Nj=tNNj1N

g(x)=1xtN1N

Pr(T=tN)1NtN11xdx=-1NLog(tN)

Das ist der Ausdruck, zu dem ich kommen wollte.


Gern geschehen. Dies war eine großartige Frage, und es hat mir viel Spaß gemacht, sie zu erarbeiten.
Matthew Drury

6

Dies scheint mit der Whitworth-Verteilung zu tun zu haben. (Ich glaube nicht, dass es sich um die Whitworth-Verteilung handelt, da, wenn ich mich recht erinnere, dies die Verteilung einer Menge geordneter Werte ist, aber es scheint damit verbunden zu sein und sich auf dasselbe Summierungsschema zu stützen.)

Es gibt einige Diskussionen über die Whitworth (und zahlreiche Referenzen) in

Anthony Lawrance und Robert Marks, (2008)
"Unternehmensgrößenverteilungen in einer Branche mit beschränkten Ressourcen",
Applied Economics , vol. 40, Ausgabe 12, Seiten 1595-1607

(Es sieht ein Arbeitspapier Version sein hier )

Siehe auch

Nancy L Geller, (1979)
Ein Test von Bedeutung für die Whitworth-Verteilung,
Journal der American Society for Information Science , Bd. 30 (4), S. 229-231


2
Könnten Sie, um diese Antwort in sich geschlossen zu machen, eine Definition der Whitworth-Verteilung und vielleicht ein paar Erklärungen zu dem Zusammenhang geben, den Sie sehen?
whuber

@whuber Ja, es sollte ein Kommentar sein, wie es steht. Ich werde einige Details bearbeiten, aber es wird noch viel länger dauern.
Glen_b

Nur eine Definition wäre in Ordnung.
whuber

Danke, das wurde verstanden, aber das wird trotzdem das Ergebnis sein.
Glen_b
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.