Computational Science performance

3

MATLAB-Matrixmultiplikation (der beste Berechnungsansatz)

Ich muss eine Koordinatentransformation zwischen zwei Referenzsystemen (Achsen) durchführen. Dafür müssen drei Matrizen ( ) multipliziert werden, da einige Zwischenachsen verwendet werden. Ich habe über zwei Lösungsansätze nachgedacht:3 × 33×33\times3 Methode 1 : Die Multiplikation direkt durchführen, vf= R.1 R.2 R.3 vichvf=R1 R2 R3 viv_f = R_1\ R_2\ R_3\ v_i …

10 matrix performance matlab

10

Ist es möglich, diesen Integrationscode so zu optimieren, dass er schneller ausgeführt wird?

double trap(double func(double), double b, double a, double N) { double j; double s; double h = (b-a)/(N-1.0); //Width of trapezia double func1 = func(a); double func2; for (s=0,j=a;j<b;j+=h){ func2 = func(j+h); s = s + 0.5*(func1+func2)*h; func1 = func2; } return s; } Das Obige ist mein C ++ …

9 c++ performance

2

Der schnellste Weg, um Eigenpaare einer kleinen unsymmetrischen Matrix auf einer GPU im gemeinsamen Speicher zu finden

Ich habe ein Problem, bei dem ich alle positiven (wie im Eigenwert positiv ist) Eigenpaare einer kleinen (normalerweise kleiner als 60x60) unsymmetrischen Matrix finden muss. Ich kann aufhören zu berechnen, wenn der Eigenwert kleiner als ein bestimmter Schwellenwert ist. Ich weiß, dass die Eigenwerte real sind. Irgendwelche Vorschläge zu Algorithmen, …

9 performance eigensystem gpu

2

Welche Sparse Matrix Solver-Bibliotheken kann ich auf Android ausführen?

Der Titel sagt das meiste davon. Ich suche eine leichte und benutzerfreundliche Bibliothek, die ich für Android (NDK) -Projekte verwenden kann. Für dichtes Material verwende ich gerne Eigen, aber ich habe nicht viele umfassende (und dokumentierte!) Bibliotheken für spärliches Material gefunden, die in einem Projekt "nur funktionieren". PETSc scheint mit …

9 pde linear-algebra libraries performance

2

Wie wichtig ist die Auswahl des Betriebssystems für die Leistung von wissenschaftlichem Computercode?

Es ist allgemein üblich zu sagen, dass Linux aus guten Gründen schneller ist. Aber wie wichtig ist die Auswahl des Betriebssystems für die Leistung des wissenschaftlichen Computercodes, wie im Titel angegeben? Bei Dingen, an denen das Betriebssystem direkter beteiligt ist (z. B. Spielen oder Rendern von Videos), kann es sicher …

8 performance benchmarking

1

Gibt es eine verbesserte Methode zur Berechnung des folgenden Ausdrucks?

gegeben eine symmetrische Matrix und eine beliebige Matrix und einen Vektor , ist es möglich, den folgenden Ausdruck in -Zeit zu berechnen ?Y∈Rn×nY∈Rn×nY \in \mathbb{R}^{n \times n}X∈Rn×nX∈Rn×nX \in \mathbb{R}^{n \times n}v∈Rn×1v∈Rn×1v \in \mathbb{R}^{n \times 1}O(n2)O(n2)O(n^2) diag(XTYX)⋅vdiag(XTYX)⋅vdiag(X^TYX) \cdot v wobei eine Matrix zurückgibt, deren Hauptdiagonalelemente gleich denen von und nicht diagonalen …

8 optimization algorithms performance matrix complexity

1

GUT Pseudozufallszahlengenerationen

Ich habe MT19937in einem Test-Harness einheitliche (vorzeichenlose) 32-Bit- Werte [0, - 1] basierend auf der ursprünglichen mt19937.c- Implementierung der Autoren generiert , um ein (im Wesentlichen unerschöpfliches) Angebot an zu generieren statistisch zufälliger Strom von Bitoktetten. Dies ersetzt ein CSPRNG, das für diese speziellen Tests nicht erforderlich ist. Ich habe …

8 performance c random-number-generation

2

Wie bestimmen Volkov und Demmel experimentell die Latenzen, Zeilengrößen und Seitengrößen einer GPU?

In "LU-, QR- und Cholesky-Faktorisierungen unter Verwendung der Vektorkapazitäten von GPUs" von Vasily Volkov und James Demmel gibt es eine interessante Möglichkeit, die Latenzen, Zeilengrößen und Seitengrößen eines Caches anhand eines Diagramms wie folgt zu interpretieren: Anscheinend ist die Zeilengröße dort, wo der Cache ein Plateau beginnt (ungefähr 32 Bytes …

8 performance gpu benchmarking

1

Wie man spärlich komplexe Matrizen effizient von meinem Code zu PETSc bringt

Was ist der effizienteste Weg, um eine komplexe Matrix mit geringer Dichte von meinem Fortran-Code auf PETSc zu übertragen? Ich verstehe, dass dies problemabhängig ist, deshalb habe ich versucht, so viele relevante Details wie möglich unten anzugeben. Ich habe mit dem FEAST-Eigenwertlöser [1] für Probleme vom Typ , die Dimension …

8 matrix petsc performance fortran sparse-matrix

2

Wie soll ich Profilierungs- / Timing-Informationen zu meinem Code melden?

Ich habe viele Veröffentlichungen in Fachzeitschriften für Computerphysik gesehen, die unterschiedliche Metriken für die Leistung ihres Codes verwenden. Insbesondere für GPGPU-Code scheint es eine Vielzahl von Timing-Ergebnissen zu geben, die von Menschen veröffentlicht werden. Insbesondere habe ich gesehen: Vergleiche von (im Wesentlichen) Ausführung timeauf der GPU- und CPU-Version und Berichterstattung …

8 performance publications documentation

4

Sind DAXPY, DCOPY, DSCAL Overkills?

Ich habe CG in FORTRAN implementiert, indem ich es mit Intel MKL verknüpft habe. Wenn es Aussagen gibt wie: ( Siehe Wikipedia ) p=r; x=x+alpha*p r=r-alpha*Ap; oder ähnliche in QMR (in viel größerer Menge) v_tld = r; y = v_tld; rho = norm( y ); w_tld = r; z = …

8 performance fortran blas

2

Wie berechne ich den parallelen Overhead eines parallelen Codes, der auf einem einzelnen Prozessor ausgeführt wird, wenn kein sequentieller Code verfügbar ist?

Ich stelle die Leistung der linearen Löser von PETSc vor. So wie ich es verstehe, speedup=Sequential TimeParallel Time.speedup=Sequential TimeParallel Time.\text{speedup}=\frac{\text{Sequential Time}}{\text{Parallel Time}}. Ich weiß, dass das Ausführen des parallelen Codes auf einem Prozessor als Proxy für die sequentielle Leistung verwendet werden kann. Ich denke jedoch nicht, dass dies aufgrund des …

8 performance petsc parallel-computing

2

Filtern eines Datensatzes, um eine gleichmäßigere Verteilung für das Training neuronaler Netze zu erhalten

Ich möchte künstliche neuronale Netze (ANN) verwenden, um die Reaktionsgeschwindigkeiten in meiner Flüssigkeit vorherzusagen, anstatt das gesamte System steifer ODEs zu lösen. Einige Leute aus meinem Labor haben bereits daran gearbeitet, damit ich nicht bei Null anfange, sondern Probleme mit meinen Anwendungen habe. Eine davon bezieht sich meiner Meinung nach …

8 performance fortran python data-management

4

(Wie) berücksichtigen Sie die Speicherfragmentierung?

Ich verwende ein Beispiel aus der Finite-Elemente-Theorie, aber jeder, der eine große Datenstruktur unterhält und diese sukzessive erweitert, wird etwas Ähnliches finden. Angenommen, ich habe ein unstrukturiertes Netz aus Punkten und Dreiecken, wobei die Punkte durch Koordinaten (z. B. und ) gegeben sind und die Dreiecke jeweils aus drei Punktindizes …

8 performance hpc memory-management

Als «performance» getaggte Fragen