Ich betreibe ein tief lernendes neuronales Netzwerk, das von einer GPU trainiert wurde. Ich möchte dies jetzt auf mehreren Hosts bereitstellen, um darauf schließen zu können. Die Frage ist, unter welchen Bedingungen ich entscheiden soll, ob ich GPUs oder CPUs als Inferenz verwenden soll.
Weitere Details aus den Kommentaren unten hinzufügen.
Ich bin neu in diesem Bereich, daher wird die Anleitung geschätzt.
Speicher : GPU ist K80
Framework : Cuda und cuDNN
Datengröße pro Workload : 20G
Zu verbrauchende Rechenknoten : einer pro Job, möchte jedoch eine Skalierungsoption in Betracht ziehen
Kosten : Ich kann mir eine GPU-Option leisten, wenn die Gründe sinnvoll sind
Bereitstellung : Wird auf eigenen gehosteten Bare-Metal-Servern ausgeführt, nicht in der Cloud.
Im Moment laufe ich auf CPU, einfach weil die Anwendung in Ordnung läuft. Abgesehen von diesem Grund bin ich mir nicht sicher, warum man überhaupt eine GPU in Betracht ziehen würde.