Was bedeutet es, wenn alle Kanten in einem realen Netzwerk / Diagramm statistisch genauso zufällig sind?


11

Ich habe die in diesem Dokument beschriebene Methode zur Extraktion des Backbone-Netzwerks verwendet: http://www.pnas.org/content/106/16/6483.abstract

Grundsätzlich schlagen die Autoren eine statistische Methode vor, die für jede Kante im Diagramm eine Wahrscheinlichkeit erzeugt, dass die Kante zufällig entstanden sein könnte. Ich verwende den typischen statistischen Signifikanzgrenzwert von 0,05.

Ich habe diese Methode auf mehrere reale Netzwerke angewendet, und interessanterweise haben einige Netzwerke keine so signifikanten Kanten. Ich versuche zu verstehen, was dies für das Netzwerk bedeutet. Das einzige Mal, dass ich die Methode auf ein Netzwerk angewendet habe und keine Kanten als signifikant herausgekommen sind, war, als ich die Methode auf zufällige Netzwerke angewendet habe, die ich generiert habe. Genau das würden wir erwarten.

Als Beispiel für ein reales Netzwerk haben Sie möglicherweise die jüngste Netzwerkvisualisierung von The Economist gesehen, die die Polarisierung des US-Senats in den letzten 25 Jahren zeigt: http://www.economist.com/news/united-states/21591190 -Einheiten-Staaten-Amöbe . Ich habe die Backbone-Netzwerkextraktionsmethode auf diese Netzwerke angewendet, und es wurden keine Kanten als signifikant eingestuft. Auch wenn die rohen Kanten anscheinend eine bevorzugte Anhaftung und Clusterbildung aufweisen, ist dies nur ein Zufall? Ist das Netzwerk des Senats für Abstimmungsnetzwerke im Wesentlichen zufällig?

Antworten:


6

Die Nullhypothese hinter Backbone-Methoden lautet

[Die] normalisierten Gewichte, die den Verbindungen eines bestimmten Knotens vom Grad k entsprechen, werden durch eine zufällige Zuordnung aus einer gleichmäßigen Verteilung erzeugt.

Wenn es keine "signifikanten" Kanten gibt, gilt die Nullhypothese für den gesamten Graphen, dh die Kantengewichte ergeben sich aus der Neigung des Knotens, Bindungen zu senden und zu empfangen.

Abhängig von den Beziehungen, die Sie analysieren, ist die Backbone-Methode möglicherweise nicht geeignet. Die Methode eignet sich am besten für Netzwerke, die konzeptionell einmodusgewichtete Netzwerke sind. Zwei-Modus-Netzwerke können als gewichtetes Ein-Modus-Netzwerk projiziert werden, dies ist jedoch häufig nicht sinnvoll.

Anhand Ihres Beispiels im Economist ist es nicht sinnvoll, die Abstimmung im Senat als ein Ein-Modus-Netzwerk zu analysieren, das mit der Anzahl der geteilten Stimmen gewichtet wird. Die Abstimmung im Senat ist eine unterzeichnete Zwei-Modi-Beziehung. Senatoren (i) haben Beziehungen zu einem Gesetz (j) und enthalten sich entweder der Stimme (0) oder sie stimmen für (+1) oder gegen (-1) das Gesetz. Die Umwandlung des Netzwerks in ein gewichtetes One-Mode-Agreement-Netzwerk und die anschließende Durchführung einer Backbone-Analyse wäre eine erhebliche Datenreduzierung. Einige Gesetze sind politisch spaltender und einige haben mehr Stimmen als andere - Backbone-Methoden würden diese Mechanismen nicht erfassen.

Möglicherweise möchten Sie CUG-Tests (Conditional Uniform Graph) anstelle von Backbone-Methoden in Betracht ziehen. Die Idee hinter diesen Tests ist es zu bestimmen, ob bestimmte Eigenschaften auf Diagrammebene (z. B. Clustering, durchschnittliche Pfadlänge, Zentralisierung, Homophilie) zufällig resultieren. Der Prozess ist wie folgt:

  1. Nehmen Sie die Messung f aus dem beobachteten Diagramm
  2. Generieren Sie ein zufälliges Diagramm, das bestimmte Eigenschaften des beobachteten Diagramms steuert (z. B. Größe, Anzahl der Kanten, Gradverteilung usw.).
  3. Nehmen Sie die Messung f aus dem Zufallsgraphen
  4. Wiederholen Sie die Schritte 2 und 3 viele Male (z. B. 1000), um eine Nullverteilung zu erhalten
  5. Vergleichen Sie die beobachtete Messung mit der Nullverteilung

Für Zwei-Modus-Netzwerke wäre es sinnvoll, den Zufallsgraphen durch Permutieren des beobachteten Graphen zu erstellen (sowohl tnet als auch statnet in R haben Routinen zum Permutieren von Zwei-Modus-Netzwerken). Wenn für die Messung f ein Ein-Modus-Netzwerk erforderlich ist, sollte der Randomisierungsprozess im Zwei-Modus-Netzwerk durchgeführt werden, bevor es als Ein-Modus-Netzwerk projiziert wird.


4

In dem von Ihnen zitierten Artikel gehen die Autoren davon aus, dass in einem komplexen Netzwerk "[die] Knoten die Elemente des [modellierten] Systems darstellen und die gewichteten Kanten das Vorhandensein einer Interaktion und ihre relative Stärke identifizieren " (Hervorhebung von mir) .

In dem Netzwerk, das Sie studieren, gibt es, wenn ich den Economist-Artikel richtig verstehe, eine Verbindung zwischen zwei Senatoren, wenn sie mindestens 100 Mal ähnlich abgestimmt haben. Die Links modellieren also keine Interaktionen, sondern Ähnlichkeiten (zwischen dem Abstimmungsverhalten der Senatoren). Nach meiner Erfahrung weisen Ähnlichkeitsnetzwerke nicht die gleiche Gradverteilung auf wie Interaktionsnetzwerke, da sie nicht so heterogen sind. Auch der beim Extrahieren des Netzwerks verwendete Schwellenwertparameter (hier: 100) hat manchmal einen starken Einfluss auf die Gradverteilung.

Außerdem konnte ich im Economist-Artikel keine Erwähnung von Gewichten finden. Das Vorhandensein von Gewichten scheint jedoch ein wichtiger Punkt in der in der Arbeit von Ángeles Serrano et al . Sie zitieren in Ihrer Frage.

Aufgrund dieser beiden Beobachtungen scheint es möglich, dass das Verfahren bei diesen Daten nicht genau funktioniert, da es nicht für die Verarbeitung von Netzwerken dieses Typs ausgelegt ist. Vielleicht können Sie die Gradverteilung überprüfen: Ist sie auf einen charakteristischen Wert zentriert oder heterogen? Und was ist mit den Gewichten?


Ich habe die Daten selbst von der Quellwebsite reproduziert, also Gewichte eingeschlossen und den willkürlichen Grenzwert nicht angewendet. Daher denke ich, dass die Daten, auf die ich die Backbone-Methode angewendet habe, von diesen Problemen nicht betroffen sein sollten. Gute Idee zur Überprüfung der Studienverteilung - ich muss einen Blick darauf werfen!
Randy Olson
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.