Als «performance» getaggte Fragen

Fragen zur Ausführungsgeschwindigkeit und Speichernutzung von Algorithmen, Datenstrukturen, Sprachen und Bibliotheken.

3
MATLAB-Matrixmultiplikation (der beste Berechnungsansatz)
Ich muss eine Koordinatentransformation zwischen zwei Referenzsystemen (Achsen) durchführen. Dafür müssen drei Matrizen ( ) multipliziert werden, da einige Zwischenachsen verwendet werden. Ich habe über zwei Lösungsansätze nachgedacht:3 × 33×33\times3 Methode 1 : Die Multiplikation direkt durchführen, vf= R.1 R.2 R.3 vichvf=R1 R2 R3 viv_f = R_1\ R_2\ R_3\ v_i …


2
Der schnellste Weg, um Eigenpaare einer kleinen unsymmetrischen Matrix auf einer GPU im gemeinsamen Speicher zu finden
Ich habe ein Problem, bei dem ich alle positiven (wie im Eigenwert positiv ist) Eigenpaare einer kleinen (normalerweise kleiner als 60x60) unsymmetrischen Matrix finden muss. Ich kann aufhören zu berechnen, wenn der Eigenwert kleiner als ein bestimmter Schwellenwert ist. Ich weiß, dass die Eigenwerte real sind. Irgendwelche Vorschläge zu Algorithmen, …



1
Gibt es eine verbesserte Methode zur Berechnung des folgenden Ausdrucks?
gegeben eine symmetrische Matrix und eine beliebige Matrix und einen Vektor , ist es möglich, den folgenden Ausdruck in -Zeit zu berechnen ?Y∈Rn×nY∈Rn×nY \in \mathbb{R}^{n \times n}X∈Rn×nX∈Rn×nX \in \mathbb{R}^{n \times n}v∈Rn×1v∈Rn×1v \in \mathbb{R}^{n \times 1}O(n2)O(n2)O(n^2) diag(XTYX)⋅vdiag(XTYX)⋅vdiag(X^TYX) \cdot v wobei eine Matrix zurückgibt, deren Hauptdiagonalelemente gleich denen von und nicht diagonalen …

1
GUT Pseudozufallszahlengenerationen
Ich habe MT19937in einem Test-Harness einheitliche (vorzeichenlose) 32-Bit- Werte [0, - 1] basierend auf der ursprünglichen mt19937.c- Implementierung der Autoren generiert , um ein (im Wesentlichen unerschöpfliches) Angebot an zu generieren statistisch zufälliger Strom von Bitoktetten. Dies ersetzt ein CSPRNG, das für diese speziellen Tests nicht erforderlich ist. Ich habe …

2
Wie bestimmen Volkov und Demmel experimentell die Latenzen, Zeilengrößen und Seitengrößen einer GPU?
In "LU-, QR- und Cholesky-Faktorisierungen unter Verwendung der Vektorkapazitäten von GPUs" von Vasily Volkov und James Demmel gibt es eine interessante Möglichkeit, die Latenzen, Zeilengrößen und Seitengrößen eines Caches anhand eines Diagramms wie folgt zu interpretieren: Anscheinend ist die Zeilengröße dort, wo der Cache ein Plateau beginnt (ungefähr 32 Bytes …


2
Wie soll ich Profilierungs- / Timing-Informationen zu meinem Code melden?
Ich habe viele Veröffentlichungen in Fachzeitschriften für Computerphysik gesehen, die unterschiedliche Metriken für die Leistung ihres Codes verwenden. Insbesondere für GPGPU-Code scheint es eine Vielzahl von Timing-Ergebnissen zu geben, die von Menschen veröffentlicht werden. Insbesondere habe ich gesehen: Vergleiche von (im Wesentlichen) Ausführung timeauf der GPU- und CPU-Version und Berichterstattung …

4
Sind DAXPY, DCOPY, DSCAL Overkills?
Ich habe CG in FORTRAN implementiert, indem ich es mit Intel MKL verknüpft habe. Wenn es Aussagen gibt wie: ( Siehe Wikipedia ) p=r; x=x+alpha*p r=r-alpha*Ap; oder ähnliche in QMR (in viel größerer Menge) v_tld = r; y = v_tld; rho = norm( y ); w_tld = r; z = …

2
Wie berechne ich den parallelen Overhead eines parallelen Codes, der auf einem einzelnen Prozessor ausgeführt wird, wenn kein sequentieller Code verfügbar ist?
Ich stelle die Leistung der linearen Löser von PETSc vor. So wie ich es verstehe, speedup=Sequential TimeParallel Time.speedup=Sequential TimeParallel Time.\text{speedup}=\frac{\text{Sequential Time}}{\text{Parallel Time}}. Ich weiß, dass das Ausführen des parallelen Codes auf einem Prozessor als Proxy für die sequentielle Leistung verwendet werden kann. Ich denke jedoch nicht, dass dies aufgrund des …

2
Filtern eines Datensatzes, um eine gleichmäßigere Verteilung für das Training neuronaler Netze zu erhalten
Ich möchte künstliche neuronale Netze (ANN) verwenden, um die Reaktionsgeschwindigkeiten in meiner Flüssigkeit vorherzusagen, anstatt das gesamte System steifer ODEs zu lösen. Einige Leute aus meinem Labor haben bereits daran gearbeitet, damit ich nicht bei Null anfange, sondern Probleme mit meinen Anwendungen habe. Eine davon bezieht sich meiner Meinung nach …

4
(Wie) berücksichtigen Sie die Speicherfragmentierung?
Ich verwende ein Beispiel aus der Finite-Elemente-Theorie, aber jeder, der eine große Datenstruktur unterhält und diese sukzessive erweitert, wird etwas Ähnliches finden. Angenommen, ich habe ein unstrukturiertes Netz aus Punkten und Dreiecken, wobei die Punkte durch Koordinaten (z. B. und ) gegeben sind und die Dreiecke jeweils aus drei Punktindizes …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.