Befolgen eindeutige Besucher einer Website ein Machtgesetz?

Angenommen, ich habe einen geordneten Vektor, bei dem das erste Element die Anzahl der Besuche auf einer Website in einem bestimmten Zeitraum nach der eindeutigen IP mit der höchsten Anzahl von Besuchen ist, das zweite Element die Anzahl der Besuche nach der eindeutigen IP mit der zweiten höchste Anzahl von Besuchen und so weiter. Ich verstehe, dass es pro Standort Abweichungen geben kann, aber gibt es im Allgemeinen ein angenommenes Muster für die Form dieses Vektors? Folgt es beispielsweise einer Potenzgesetzverteilung?

web power-law

— Jon Smark
quelle

IP-Adressen werden aufgrund der dynamischen Adressierung und verschiedener anderer Probleme (z. B. Benutzer mehrerer Computer) nicht besonders gut mit Personen übereinstimmen. Wenn ich diese Hypothese testen wollte, würde ich wahrscheinlich eine Besucher-ID anstelle einer IP-Adresse verwenden.

— Richiemorrisroe

Nein, eindeutige Besucher einer Website befolgen kein Machtgesetz.

In den letzten Jahren wurde die Prüfung von machtrechtlichen Ansprüchen immer strenger (z. B. Clauset, Shalizi und Newman 2009). Anscheinend waren frühere Behauptungen oft nicht gut getestet und es war üblich, die Daten auf einer Log-Log-Skala zu zeichnen und sich auf den "Augapfeltest" zu verlassen, um eine gerade Linie zu demonstrieren. Jetzt, da formale Tests üblicher sind, stellen sich viele Distributionen als ungeeignet heraus, Potenzgesetze zu befolgen.

Die besten zwei Referenzen, die ich kenne, um die Besuche von Nutzern im Internet zu untersuchen, sind Ali und Scarr (2007) sowie Clauset, Shalizi und Newman (2009).

Ali und Scarr (2007) betrachteten eine zufällige Stichprobe von Nutzerklicks auf eine Yahoo-Website und kamen zu dem Schluss:

Es ist allgemein bekannt, dass die Verteilung von Webklicks und Seitenzugriffen einer skalierungsfreien Potenzgesetzverteilung folgt. Wir haben jedoch festgestellt, dass eine statistisch signifikant bessere Beschreibung der Daten die skalensensitive Zipf-Mandelbrot-Verteilung ist und dass Gemische davon die Anpassung weiter verbessern. Frühere Analysen haben drei Nachteile: Sie verwendeten eine kleine Anzahl von Verteilungskandidaten, analysierten das veraltete Verhalten der Benutzer im Internet (ca. 1998) und verwendeten fragwürdige statistische Methoden. Obwohl wir nicht ausschließen können, dass eines Tages möglicherweise keine bessere Anpassungsverteilung gefunden wird, können wir mit Sicherheit sagen, dass die skalensensitive Zipf-Mandelbrot-Verteilung eine statistisch signifikant stärkere Anpassung an die Daten liefert als das skalenselektive Potenzgesetz oder Zipf on eine Vielzahl von Branchen aus der Yahoo-Domain.

Hier ist ein Histogramm der Klicks einzelner Benutzer über einen Monat und derselben Daten in einem Protokoll-Protokoll-Diagramm mit verschiedenen Modellen, die sie verglichen haben. Die Daten liegen eindeutig nicht auf einer geraden logarithmischen Linie, die von einer skalierungsfreien Stromverteilung erwartet wird.

Abbildungen 2 und 4 von Ali und Scarr

Clauset, Shalizi und Newman (2009) verglichen Erklärungen zum Potenzgesetz mit alternativen Hypothesen unter Verwendung von Likelihood-Ratio-Tests und kamen zu dem Schluss, dass sowohl Zugriffe als auch Links "nicht plausibel als Folgen eines Potenzgesetzes angesehen werden können". Ihre Daten für die ersteren waren an einem einzigen Tag Web-Hits von Kunden des America Online-Internetdienstes und für die letzteren Links zu Websites, die 1997 bei einem Web-Crawl von etwa 200 Millionen Webseiten gefunden wurden. Die folgenden Bilder geben die kumulativen Verteilungsfunktionen P (x) und ihre Maximum-Likelihood-Potenzgesetze an.

Bildbeschreibung hier eingeben

Clauset, Shalizi und Newman stellten für beide Datensätze fest, dass Leistungsverteilungen mit exponentiellen Cut-Offs zur Modifikation des äußersten Endes der Verteilung eindeutig besser sind als reine Potenzgesetzverteilungen und dass logarithmische Normalverteilungen ebenfalls gut passen. (Sie betrachteten auch exponentielle und gestreckte exponentielle Hypothesen.)

Wenn Sie einen Datensatz in der Hand haben und nicht nur neugierig sind, sollten Sie ihn mit verschiedenen Modellen kombinieren und vergleichen (in R: pchisq (2 * (logLik (model1) - logLik (model2)), df = 1, niedriger). tail = FALSE)). Ich gebe zu, dass ich keine Ahnung habe, wie man ein nullangepasstes ZM-Modell modelliert. Ron Pearson hat über ZM-Distributionen gebloggt und es gibt anscheinend ein R-Paket zipfR. Ich würde wahrscheinlich mit einem negativen Binomialmodell beginnen, aber ich bin kein echter Statistiker (und ich würde ihre Meinung lieben).

(Ich möchte auch @richiemorrisroe oben als zweiten Kommentar hinzufügen, der darauf hinweist, dass Daten wahrscheinlich von Faktoren beeinflusst werden, die nichts mit dem menschlichen Verhalten zu tun haben, z.

Erwähnte Papiere:

— MattBagg
quelle

@MattBag, Sieht interessant aus, wird dies in diesem Fall versuchen stats.stackexchange.com/q/41286/13201

— FredrikD