Speicherbedarf für schnelle Matrixmultiplikation

Angenommen, wir wollen $n \times n$ Matrizen multiplizieren . Der langsame Matrixmultiplikationsalgorithmus läuft in der Zeit $O(n^3)$ und verwendet den $O(n^2)$ -Speicher. Die schnellste Matrixmultiplikation läuft in der Zeit $n^{\omega + o(1)}$ , wobei $\omega$ die lineare Algebra konstant, aber was um seinen Speicher Komplexität bekannt?

Es scheint möglich zu sein, dass eine schnelle Matrixmultiplikation a priori $n^{\omega}$ ohgr; -Speicher verbraucht . Gibt es eine Garantie dafür, dass dies im $O(n^2)$ -Speicher möglich ist? Ist es der Fall, dass die derzeit bekannten Matrixmultiplikationsalgorithmen $O(n^2)$ -Speicher verwenden?

(Eigentlich interessiert mich die rechteckige Matrixmultiplikation, aber ich gehe davon aus, dass die Antwort in diesem Fall dieselbe ist wie für den quadratischen Fall, und der quadratische Fall ist besser untersucht.)

ds.algorithms linear-algebra

— David Harris
quelle

Die Raumnutzung beträgt für alle Strassen-ähnlichen Algorithmen (dh diejenigen, die auf der algebraischen Obergrenze des Rangs der Matrixmultiplikation beruhen höchstens ). Siehe Raumkomplexität des Coppersmith-Winograd-Algorithmus $O(n^2)$

In meiner vorherigen Antwort habe ich jedoch festgestellt, dass ich nicht erklärt habe, warum der Speicherplatz . Überlegen Sie, was ein Strassen-ähnlicher Algorithmus bewirkt. Es geht von einem festen Algorithmus für die Matrixmultiplikation aus, der -Multiplikationen für eine Konstante . Insbesondere kann dieser Algorithmus (was auch immer es ist) WLOG so geschrieben werden, dass: $O(n^2)$ $K \times K$ $K^c$ $c < 3$

Es berechnet verschiedene Matrizen die Einträge der ersten Matrix mit verschiedenen Skalaren multiplizieren, und Matrizen aus der zweiten Matrix ähnlicher Form. $K^c$ $L_1,\ldots,L_{K^c}$ $A$ $K^c$ $R_1,\ldots,R_{K^c}$ $B$
Es vermehrt jene Linearkombinationen , dann $L_i \cdot R_i$
Es multipliziert die Einträge von mit verschiedenen Skalaren und addiert dann alle diese Matrizen eintragsweise auf, um . $L_i \cdot R_i$ $A \cdot B$

(Dies ist ein sogenannter "bilinearer" Algorithmus, aber es stellt sich heraus, dass jeder "algebraische" Matrixmultiplikationsalgorithmus auf diese Weise geschrieben werden kann.) Für jedes muss dieser Algorithmus nur das speichern aktuelles Produkt und der aktuelle Wert von (anfangs auf Nullen gesetzt) im Speicher zu einem beliebigen Zeitpunkt, sodass der Platzbedarf . $i=1,\ldots,K^c$ $L_i \cdot R_i$ $A \cdot B$ $O(K^2)$

Wenn dieser endliche Algorithmus gegeben ist, wird er auf beliebige -Matrizen erweitert, indem die großen Matrizen in Blöcke mit den Dimensionen $K^{\ell} \times K^{\ell}$ $K \times K$ unter Anwendung des Finite - Algorithmus zum Block Matrizen und rekursives Aufrufen des Algorithmus, wenn zwei Blöcke multipliziert werden müssen. Auf jeder Rekursionsebene müssen wir nur Feldelemente im Speicherbehalten(Speichern von $K^{\ell-1}\times K^{\ell-1}$ $K \times K$ $O(K^{2\ell})$ $O(1)$ verschiedene Matrizen). Unter die Annahme die Raumnutzung für Matrizenmultiplikation ist , wobei der Raum Verwendung dieses rekursiven Algorithmus ist , , was für $K^{\ell} \times K^{\ell}$ $K^{\ell-1}\times K^{\ell-1}$ $S(\ell-1)$ $S(\ell) \leq S(\ell-1) + O(K^{2\ell})$ $S(1) = 2K^2$ löst sich zu . $S(\ell) \leq O(K^{2\ell})$

— Ryan Williams
quelle

Für jeden Strassen-Algorithmus scheint mir dies richtig zu sein. Aber Coppersmith-Winograd auch bewiesen , dass zu bekommen unten

erfordert tatsächlich eine unendliche Folge von Strassen-style - Algorithmen, von denen jeder kommt näher und näher an den wahren Exponenten. Tatsächlich liefern sowohl der CW-Algorithmus als auch der CU-Algorithmus solche Sequenzen (wenn auch , soweit wir wissen, nicht in der Nähe von

). Über die Rationen hinweg ist es möglich, dass die in einer solchen Sequenz verwendeten Konstanten sehr schnell wachsen, so dass "das"

n^{ω}

$n^\omega$

ω

$\omega$

n^{ω}

$n^\omega$ Algorithmus könnte am Ende mit

Raum.

ω (n^{2})

$\omega(n^2)$

— Joshua Grochow

... Aber durch dein Argument kann man immer einen Algorithmus in Zeit

und Raum

O (n^{ω + δ})

$O(n^{\omega + \delta})$

O (n^{2})

$O(n^2)$ für jedes

δ > 0

$\delta > 0$

— Joshua Grochow

@Joshua, der Speicherbedarf dieser Strassen-Algorithmen ist wie

, wobei i die Indexnummer des Algorithmus ist und f berechenbar ist. Also, wenn Sie diese Algorithmen suchen über von

und k eine langsam wachsende Funktion von n ist, dann wird die Arbeit

und der Speicher ist

f (i) * n^{2}

$f(i) * n^2$

i = 0, . . ., k

$i = 0, ..., k$

n^{ω + o (1)}

$n^{\omega+o(1)}$

n^{2 + o (1)}

$n^{2+o(1)}$

— David Harris

@DavidHarris: Nun, sicher, solange

im Vergleich zu

langsam genug wächst , muss

höchstens so schnell wachsen wie

. Die Frage ist für jede Familie, was

und wie schnell

wächst. Aber es gibt keine Garantie, dass

langsam genug wächst, um insgesamt

Speicherauslastung zu erhalten ...

k

$k$

f

$f$

k

$k$

f^{- 1}

$f^{-1}$

f

$f$

k

$k$

k

$k$

n^{2 + o (1)}

$n^{2+o(1)}$

— Joshua Grochow

@Joshua. Die Idee ist, dass wir bei Eingaben der Länge

die ersten

mutmaßlichen Strassen-Algorithmen durchsuchen , überprüfen, ob sie gültig sind, und diejenige auswählen, die am schnellsten ist. Wählen Sie einfach

als eine Funktion von

, so dass

. Da

, bedeutet dies, dass jeder Algorithmus vom Strassen-Typ

ausreichend groß gewählt wird. Die Zeit geht also nach

n

$n$

k

$k$

k

$k$

n

$n$

f (k (n)) = n^{o (1)}

$f(k(n)) = n^{o(1)}$

k (n) \to \infty

$k(n) \rightarrow \infty$

n

$n$

n^{ω + o (1)}

$n^{\omega+o(1)}$

$p$ $O(n^2/p)$

— Alexander Tiskin
quelle