Wann sind Adjazenzlisten oder Matrizen die bessere Wahl?

Mir wurde gesagt, dass wir eine Liste verwenden würden, wenn der Graph dünn ist, und eine Matrix, wenn der Graph dicht ist . Für mich ist es nur eine grobe Definition. Ich sehe nicht viel darüber hinaus. Können Sie klarstellen, wann dies die natürliche Wahl wäre?

Danke im Voraus!

— user21312
quelle

Siehe auch : stackoverflow.com/a/2218331/5746050 und stackoverflow.com/a/5419933/5746050

— ryan

Das ist keine Definition, vor allem, weil es keine einheitliche Definition von "dünn" und "dicht" gibt. Es gibt auch andere Überlegungen, z. B. welche Aspekte des Diagramms Sie wie oft zugreifen.

— Raphael

@Raphael Können Sie weitere Einzelheiten zu den anderen Überlegungen erläutern?

— user21312

@ user21312, ein großer Unterschied ist die Iterierbarkeit gegenüber dem Zugriff auf Kanten. Wenn Sie häufig über Kanten iterieren müssen, ist die Adj-Liste möglicherweise nützlicher. Wenn Sie häufig feststellen müssen, ob eine Kante vorhanden ist, oder auf deren Gewicht (oder andere Informationen) zugreifen müssen, ist die Matrix möglicherweise besser.

— Ryan

Für Ihren Zweck könnten wir wahrscheinlich sorglos darüber nachdenken, was die Definition von "spärlich" und "dicht" ist. Modellieren Sie einfach die zeitliche Komplexität der Matrixoperation, die Sie für jede Art von Datenstruktur verwenden möchten, und sehen Sie, wo sich der "Knickpunkt der Dichte" befindet. Ich denke, der zweite Link von @ryan versucht, etwas Ähnliches zu tun

— Apiwat Chantawibul

Antworten:

Zuallererst bedeutet " dünn" , dass Sie nur sehr wenige Kanten haben, und " dicht" bedeutet "viele Kanten" oder "fast vollständiges Diagramm". In einem vollständigen Diagramm haben Sie Kanten, wobei die Anzahl der Knoten ist. $n(n-1)/2$ $n$

Wenn wir nun eine Matrixdarstellung verwenden , weisen wir eine Matrix zu, um Knotenverbindungsinformationen zu speichern, z. B. wenn es eine Kante zwischen den Knoten und , andernfalls $n\times n$ $M[i][j] = 1$ $i$ $j$ . Wenn wir jedoch die Adjazenzliste verwenden, haben wir ein Array von Knoten, und jeder Knoten zeigt auf seine Adjazenzliste,die NUR seine Nachbarknoten enthält. $M[i][j] = 0$

Wenn ein Graph spärlich ist und wir eine Matrixdarstellung verwenden, bleiben die meisten Matrixzellen ungenutzt, was zur Verschwendung von Speicher führt. Daher verwenden wir normalerweise keine Matrixdarstellung für spärliche Diagramme. Wir bevorzugen die Nachbarschaftsliste.

Wenn der Graph jedoch dicht ist, liegt die Anzahl der Kanten nahe an (dem vollständigen) oder nahe an wenn der Graph mit Selbstschleifen ausgerichtet ist. In diesem Fall bietet die Verwendung der Adjazenzliste keinen Vorteil gegenüber der Matrix. $n(n-1)/2$ $n^2$

In Bezug auf die Raumkomplexität
Adjazenzmatrix: Adjazenzliste: wobei die Anzahl der Knoten und die Anzahl der Kanten ist. $O(n^2)$
$O(n + m)$
$n$ $m$

Wenn der Graph ein ungerichteter Baum ist, dann
Adjazenzmatrix: Adjazenzliste: ist (besser als ) $O(n^2)$
$O(n + n)$ $O(n)$ $n^2$

Wenn der Graph gerichtet ist, vollständig mit Selbstschleifen, dann
Adjazenzmatrix: Adjazenzliste: ist (kein Unterschied) $O(n^2)$
$O(n + n^2)$ $O(n^2)$

Wenn Sie schließlich die Verwendung einer Matrix implementieren, dauert die Überprüfung, ob eine Kante zwischen zwei Knoten vorhanden ist, Mal, während es bei einer Adjazenzliste in möglicherweise eine lineare Zeit dauert . $O(1)$ $n$

— fade2black
quelle

"Während bei einer Adjazenzliste möglicherweise eine lineare Zeit verstrichen ist" - Wenn Ihre Adjazenzliste (wahrscheinlich) keine natürliche Reihenfolge aufweist, warum handelt es sich dann um eine Liste anstelle eines Hash-Satzes?

— Kevin

@ Kevin Dann würde es "Adjazenz-Hash" anstelle von "Liste" heißen. Auch möglich, warum nicht? Aber wenn Sie einfach DFS oder BFS oder eine andere Prozedur ausführen, die systematisch alle Knoten durchsucht, was ist dann der Vorteil der Verwendung von Hash-über-Liste? In jedem Fall würden Sie alle benachbarten Knoten untersuchen.

— Fade2Black

Ich würde hinzufügen, dass es im ungewichteten ungerichteten Fall für ein fast vollständiges Diagramm praktikabler sein könnte, sein Komplement, dh ein spärliches Diagramm, zu speichern. Eine Matrix ist also nützlich, wenn ungefähr die Hälfte der Kanten vorhanden ist.

— M. Winter

Um mit einer einfachen Analogie zu antworten: Wenn Sie 6 Unzen Wasser aufbewahren müssten, würden Sie dies (im Allgemeinen) mit einem 5-Gallonen-Behälter oder einer 8-Unzen-Tasse tun?

Kommen wir nun zu Ihrer Frage zurück. Wenn der Großteil Ihrer Matrix leer ist, warum sollten Sie sie dann verwenden? Listen Sie stattdessen jeden Wert auf. Wenn Ihre Liste jedoch sehr lang ist, warum nicht einfach eine Matrix verwenden, um sie zu verdichten?

Die Argumentation hinter list vs matrix ist in diesem Fall wirklich so einfach.

PS eine Liste ist wirklich nur eine einzelne Spaltenmatrix !!! (Ich versuche dir zu zeigen, wie willkürlich eine Entscheidung / ein Szenario ist)

— Charles
quelle

Betrachten Sie einen Graphen mit Knoten und Kanten. Ohne Berücksichtigung von Termen niedriger Ordnung verwendet eine Bitmatrix für einen Graphen Bits, unabhängig von der Anzahl der Kanten. $N$ $E$ $N^2$

Wie viele Bits brauchst du eigentlich?

Unter der Annahme, dass Kanten unabhängig sind, beträgt die Anzahl der Graphen mit Knoten und Kanten $N$ $E$ . Die minimale Anzahl von Bits, die erforderlich sind, um diese Teilmenge zu speichern, ist ${N^2 \choose E}$ . $\log_2 {N^2 \choose E}$

Wir gehen ohne Einschränkung der Allgemeinheit davon aus, dass , das heißt, dass die Hälfte oder weniger der Kanten vorhanden sind. Ist dies nicht der Fall, können wir stattdessen die Menge der "Nichtkanten" speichern. $E \le \frac{N^2}{2}$

Wenn , $E = \frac{N^2}{2}$ $\log_2{N^2 \choose E} = N^2 + o(N^2)$ , so the matrix representation is asymptotically optimal. If $E \ll N^2$ , using Stirling's approximation and a little arithmetic, we find:

\log_{2} (\binom{N^{2}}{E})

$\log_2 {N^2 \choose E}$

= \log_{2} \frac{(N^{2})!}{E! (N^{2} - E)!}

$= \log_2 \frac {(N^2)!} {E! (N^2 - E)!}$

= 2 E \log_{2} N + O (low order terms)

$= 2E \log_2 N + O(\hbox{low order terms})$

If you consider that $\log_2 N$ is the size of an integer which can represent a node index, the optimal representation is an array of $2E$ node ids, that is, an array of pairs of node indexes.

Having said that, a good measure of sparsity is the entropy, which is also the number of bits per edge of the optimal representation. If $p = \frac{E}{N^2}$ is the probability that an edge is present, the entropy is $- \log_2{p(1-p)}$ . For $p \approx \frac{1}{2}$ , the entropy is 2 (i.e. two bits per edge in the optimal representation), and the graph is dense. If the entropy is significantly greater than 2, and in particular if it's close to the size of a pointer, the graph is sparse.

— Pseudonym
quelle