Nein, eindeutige Besucher einer Website befolgen kein Machtgesetz.
In den letzten Jahren wurde die Prüfung von machtrechtlichen Ansprüchen immer strenger (z. B. Clauset, Shalizi und Newman 2009). Anscheinend waren frühere Behauptungen oft nicht gut getestet und es war üblich, die Daten auf einer Log-Log-Skala zu zeichnen und sich auf den "Augapfeltest" zu verlassen, um eine gerade Linie zu demonstrieren. Jetzt, da formale Tests üblicher sind, stellen sich viele Distributionen als ungeeignet heraus, Potenzgesetze zu befolgen.
Die besten zwei Referenzen, die ich kenne, um die Besuche von Nutzern im Internet zu untersuchen, sind Ali und Scarr (2007) sowie Clauset, Shalizi und Newman (2009).
Ali und Scarr (2007) betrachteten eine zufällige Stichprobe von Nutzerklicks auf eine Yahoo-Website und kamen zu dem Schluss:
Es ist allgemein bekannt, dass die Verteilung von Webklicks und Seitenzugriffen einer skalierungsfreien Potenzgesetzverteilung folgt. Wir haben jedoch festgestellt, dass eine statistisch signifikant bessere Beschreibung der Daten die skalensensitive Zipf-Mandelbrot-Verteilung ist und dass Gemische davon die Anpassung weiter verbessern. Frühere Analysen haben drei Nachteile: Sie verwendeten eine kleine Anzahl von Verteilungskandidaten, analysierten das veraltete Verhalten der Benutzer im Internet (ca. 1998) und verwendeten fragwürdige statistische Methoden. Obwohl wir nicht ausschließen können, dass eines Tages möglicherweise keine bessere Anpassungsverteilung gefunden wird, können wir mit Sicherheit sagen, dass die skalensensitive Zipf-Mandelbrot-Verteilung eine statistisch signifikant stärkere Anpassung an die Daten liefert als das skalenselektive Potenzgesetz oder Zipf on eine Vielzahl von Branchen aus der Yahoo-Domain.
Hier ist ein Histogramm der Klicks einzelner Benutzer über einen Monat und derselben Daten in einem Protokoll-Protokoll-Diagramm mit verschiedenen Modellen, die sie verglichen haben. Die Daten liegen eindeutig nicht auf einer geraden logarithmischen Linie, die von einer skalierungsfreien Stromverteilung erwartet wird.
Clauset, Shalizi und Newman (2009) verglichen Erklärungen zum Potenzgesetz mit alternativen Hypothesen unter Verwendung von Likelihood-Ratio-Tests und kamen zu dem Schluss, dass sowohl Zugriffe als auch Links "nicht plausibel als Folgen eines Potenzgesetzes angesehen werden können". Ihre Daten für die ersteren waren an einem einzigen Tag Web-Hits von Kunden des America Online-Internetdienstes und für die letzteren Links zu Websites, die 1997 bei einem Web-Crawl von etwa 200 Millionen Webseiten gefunden wurden. Die folgenden Bilder geben die kumulativen Verteilungsfunktionen P (x) und ihre Maximum-Likelihood-Potenzgesetze an.
Clauset, Shalizi und Newman stellten für beide Datensätze fest, dass Leistungsverteilungen mit exponentiellen Cut-Offs zur Modifikation des äußersten Endes der Verteilung eindeutig besser sind als reine Potenzgesetzverteilungen und dass logarithmische Normalverteilungen ebenfalls gut passen. (Sie betrachteten auch exponentielle und gestreckte exponentielle Hypothesen.)
Wenn Sie einen Datensatz in der Hand haben und nicht nur neugierig sind, sollten Sie ihn mit verschiedenen Modellen kombinieren und vergleichen (in R: pchisq (2 * (logLik (model1) - logLik (model2)), df = 1, niedriger). tail = FALSE)). Ich gebe zu, dass ich keine Ahnung habe, wie man ein nullangepasstes ZM-Modell modelliert. Ron Pearson hat über ZM-Distributionen gebloggt und es gibt anscheinend ein R-Paket zipfR. Ich würde wahrscheinlich mit einem negativen Binomialmodell beginnen, aber ich bin kein echter Statistiker (und ich würde ihre Meinung lieben).
(Ich möchte auch @richiemorrisroe oben als zweiten Kommentar hinzufügen, der darauf hinweist, dass Daten wahrscheinlich von Faktoren beeinflusst werden, die nichts mit dem menschlichen Verhalten zu tun haben, z.
Erwähnte Papiere: