Ich mache eine Lanczos-Diagonalisierung einer großen Matrix mit geringer Dichte (~ 2 Millionen Elemente). Fast alle Schritte im Lanzcos-Algorithmus werden parallel auf der GPU ausgeführt, mit Ausnahme der Diagonalisierung der Lanczos-Matrix, um die Konvergenz zu überprüfen. Dafür habe ich den TQLI-Algorithmus von Numerical Recipes verwendet. Gibt es Methoden, um das Eigensystem einer tridiagonalen Matrix zu finden, die parallel oder leicht parallelisierbar sind? Gibt es eine parallele Version von TQLI?