Nvidia K20X gegen GeForce Titan für GPGPU-Beschleunigung

10

Ich versuche den Unterschied zwischen diesen beiden Grafikkarten für das akademische Rechnen zu verstehen, speziell für die DGEMM-Komponente.

Wenn wir uns die Rohstatistik ansehen, haben beide den gleichen GK110-Chip, vergleichbare Statistiken in praktisch jeder Kategorie und, glaube ich, die gleiche Kernarchitektur. Vor jeglichen Rabatten ist der K20X ungefähr viermal so teuer wie ein Titan. Unter Effizienzgesichtspunkten scheint es sehr sinnvoll zu sein, Titans gegenüber K20Xs zu verwenden.

Es fällt mir schwer, den Unterschied hier zu verstehen. Kann jemand die Situation beleuchten?

Als Hinweis möchte ich diese Karten für einen Rack-Server kaufen und im Wesentlichen mit voller Neigung laufen, bis sie sterben. Ich sehe jedoch nicht die Effizienz der Verwendung mehrerer GPUs für einen einzelnen Job als besonders wichtig an.

performance gpu efficiency

— Ophion
quelle

13

Es gibt einige Unterschiede, die jedoch nicht unbedingt in Bezug auf Hardware oder Spezifikationen bestehen. Beachten Sie, dass dies alles Informationen sind, die ich aus Foren oder Pressemitteilungen erhalten habe. Nehmen Sie also alles mit einem Körnchen Salz.

Die erste ist die "Skalierbarkeit und Zuverlässigkeit" ( Quelle ). Der K20 wurde entwickelt, um in einem Clustersystem zu sitzen und rund um die Uhr mit voller Neigung zu laufen. Der Titan ist eher für Spiele konzipiert, daher läuft er in diesem Arbeitszyklus. Bei dieser Verwendung kann es jedoch zu Problemen mit der Langzeitlebensdauer kommen.

Die Fahrer sind auch unterschiedlich, aber ich bin mir der großen Unterschiede nicht sicher. Der Unterschied im Fokus des Kartendesigns führt wahrscheinlich zu relativ geringen Leistungssteigerungen für die Tesla-Karten auf dieser Vorderseite.

"Einige Tesla-exklusive Funktionen umfassen:

NVIDIA GPUDirect RDMA für InfiniBand-Leistung
Hyper-Q für MPI (Hyper-Q für CUDA-Streams wird von GeForce GTX TITAN unterstützt)
ECC-Schutz für alle internen und externen Register und Speicher
Unterstützte Tools für die GPU- und Clusterverwaltung, wie Bright Computing, Ganglia. "( Quelle )

Dies weist auf die Tatsache hin, dass der Hauptunterschied ihre Skalierbarkeit ist. Wenn Sie auf einem Desktop in Ihrem Büro arbeiten möchten, ist es schwierig, gegen einen Titan über den K20 wegen des Preisunterschieds zu argumentieren. Wenn Sie die zusätzliche Leistung mehrerer K20 benötigen, suchen Sie sich ein HPC-Center und kaufen Sie Zeit mit ihren Servern.

Bearbeiten:

Nachdem ich mich etwas eingehender mit ECC befasst habe, aktualisiere ich diese Antwort, um auf die Auswirkungen hinzuweisen, die sich auf die K20 und nicht auf die Titan auswirken. Die folgenden Informationen sind eine Umschreibung von Informationen, die hier zu finden sind .

ECC ist eine Fehlerprüfung im DRAM und registriert sich für die GPU. Weiche Fehler treten auf, wenn ein Bit falsch übertragen / gespeichert wird. Je schneller und näher die Schaltungen beieinander liegen, desto höher ist die Wahrscheinlichkeit eines weichen Fehlers. Wenn Sie einen Satz gekoppelter ODEs lösen oder ein lineares System lösen, kann eine einzelne Zahl, die um ein Bit abweicht, die Ergebnisse auf nicht reproduzierbare Weise erheblich verändern. Die meisten Standard-RAMs und Caches in der CPU werden mithilfe von ECC auf Fehler überprüft.

GPUs hingegen haben im Allgemeinen keine ECC, obwohl ihr Speicherbus viel schneller ist als der auf der CPU. Dies liegt daran, dass die Qualität des Programms nicht beeinträchtigt wird, wenn ein Pixel auf dem Bildschirm für ein Bild um ein Bit versetzt ist. Diese Fehler verbreiten sich auch nicht. Daher kann durch Überspringen dieser Funktion viel Chip-Immobilien (und Kosten) eingespart werden. Diese zusätzliche Komplexität verursacht wahrscheinlich einen großen Teil der zusätzlichen Kosten der Tesla-Leitung.

— Godric Seer
quelle

3

Tolle Antwort +1! Es ist kaum zu glauben, dass diese Funktionen so teuer sind. Ich denke, die Zeile "Entwickeln mit GeForce, Bereitstellen mit Tesla" auf der verlinkten Nvidia-Website fasst die wichtigen Themen zusammen. Die beste Lösung für den Moment ist es, mehrere GeForces zu kaufen und sie hart laufen zu lassen, bis sie sozusagen den blauen Rauch aufgeben.

— Ophion

3

"Dies hat sie jedoch nicht davon abgehalten, bei Oakridge eingesetzt zu werden." Der Cray XK7 von OLCF mit dem Namen "Titan" verwendet Tesla K20-GPUs, nicht die GTX Titan. NVidia sagt, dass die GTX Titan "die Technologie" von OLCF Titan hat, was das gleiche Vokabular ist, das verwendet wird, wenn gesagt wird, dass ein Economy-Auto "die Technologie" eines Formel-1-Autos hat. (GTX Titan Leistung ist ziemlich gut, aber es hat kein ECC und wird nicht in größeren Installationen verwendet, die mir bekannt sind.)

— Jed Brown

1

Mein Fehler, ich habe den Artikel falsch interpretiert. Ich werde die Antwort aktualisieren, um nicht irreführend zu sein.

— Godric Seer

2

Meiner Meinung nach scheint der Unterschied hauptsächlich in der Marktsegmentierung zu liegen. Wenn Sie Wissenschaftler sind, möchte NVidia, dass Sie befürchten, dass Ihr Papier abgelehnt wird, weil Sie eine GPGPU verwenden, ohne so viel RAM-Fehler zu korrigieren, wie dies mit K20X möglich wäre. Wenn Sie ein Unternehmen sind, möchten Sie möglicherweise 4x zahlen, wenn dies bedeutet, dass Sie weniger wahrscheinlich wegen des Verdachts verklagt werden, dass Ihre Berechnungen nicht so fehlerkorrigiert wie möglich sind. Einzelne Spieler oder Hobby-GPGPUs werden Titan verkauft, weil sie weniger Geld haben und auf diese Weise schwerer zu überzeugen sind.

— k20
quelle

2

Ich habe nur Berechnungen mit ECC durchgeführt. Haben Sie zufällig einen guten Artikel, der die Fehler von Nicht-ECC-Systemen und logischen Haltepunkten zeigt, bei denen dies von Vorteil ist?

— Ophion

2

@Ophion Eine Untersuchung der Auswirkungen von Fehlerkorrekturcode auf GPU-beschleunigte molekulardynamische Simulationen ---> Dies könnte für Sie von Interesse sein.

— BenC

Für diejenigen, die die Zusammenfassung des sehr hervorragenden Links von BenC wünschen: Weiche Fehler, die ECC beheben würde, sind äußerst selten, und das Papier empfiehlt sogar, ECC bei Tesla auszuschalten, um die Geschwindigkeit zu erhöhen. Vorsichtsmaßnahme: Dies wurde nicht mit Consumer-GPUs getestet.

— semi-extrinsic

0

Es hängt wirklich von der Anwendung ab, die Sie ausführen. GPUGRID.net läuft auf Computern ohne ECC und alles ist in Ordnung. Die Ergebnisse sind so gut wie auf jeder anderen Plattform. Acellera verkauft auch Hardware mit GeForce-Karten, und in nur wenigen Fällen sind die GPUs ausgefallen. GeForce ist alles was Sie brauchen.

— David
quelle