Ich habe viel über gewundene neuronale Netze gelesen und mich gefragt, wie sie das Problem des verschwindenden Gradienten vermeiden. Ich weiß, dass Deep-Believe-Netzwerke Single-Level-Auto-Encoder oder andere vorgefertigte flache Netzwerke stapeln und so dieses Problem vermeiden können, aber ich weiß nicht, wie es in CNNs vermieden wird.
Laut Wikipedia :
"Trotz des oben erwähnten" Fluchtgradientenproblems "macht die überlegene Verarbeitungsleistung von GPUs eine einfache Rückübertragung für tiefe vorwärtsgerichtete neuronale Netze mit vielen Schichten möglich."
Ich verstehe nicht, warum die GPU-Verarbeitung dieses Problem beheben würde.
GPU's are fast correlated with vanishing gradients
ich kann die schnelle Logik mit großer Speicherbandbreite zur Verarbeitung mehrerer Matrixmultiplikationen verstehen! aber könntest du bitte erklären, was es mit den Derivaten zu tun hat? Das Problem des verschwindenden Gradienten scheint mehr mit der Gewichtsinitialisierung zu tun zu haben , nicht wahr?