Der Fokus dieser Frage
"Wie können ... wir die Daten aus der wahren Verteilung und die Daten aus dem generativen Modell in derselben Iteration verarbeiten?
Analyse der grundlegenden Publikation
Der Doktorand Daniel Sieta referenziert auf der referenzierten Seite „ Generative Adversarial Networks (2017) verstehen“ korrekt die Generativen Adversarial Networks, Goodfellow, Pouget-Abadie, Mirza, Xu, Warde-Farley, Ozair, Courville und Bengio, Juni 2014 . Es heißt abstrakt: "Wir schlagen einen neuen Rahmen für die Schätzung generativer Modelle über einen kontroversen Prozess vor, in dem wir gleichzeitig zwei Modelle trainieren ..." In diesem Originalpapier werden zwei Modelle definiert, die als MLPs (Multilayer Perceptrons) definiert sind.
- Generatives Modell, G
- Diskriminierungsmodell, D
Diese beiden Modelle werden so gesteuert, dass das eine eine Form der Gegenkopplung zum anderen liefert, daher der Begriff „kontrovers“.
- G ist darauf trainiert, die Datenverteilung einer Reihe von Beispielen gut genug zu erfassen, um D zu täuschen.
- D wird darauf trainiert, herauszufinden, ob es sich bei seinen Eingaben um Gs Mocks oder um die Beispielsätze für das GAN-System handelt.
(Die Beispielsätze für das GAN-System werden manchmal als reale Stichproben bezeichnet, aber sie sind möglicherweise nicht realer als die generierten. Beide sind numerische Arrays in einem Computer, wobei eines einen internen Ursprung und das andere einen externen Ursprung hat (Ob die externen von einer Kamera stammen, die auf eine physische Szene gerichtet ist, ist für den GAN-Betrieb nicht relevant.)
Wahrscheinlich ist das Täuschen von D gleichbedeutend mit der Maximierung der Wahrscheinlichkeit, dass D so viele falsch-positive und falsch-negative Ergebnisse generiert, wie Kategorisierungen korrekt sind, und zwar jeweils 50%. In der Informationswissenschaft bedeutet dies, dass die Informationsgrenze D von G gegen 0 geht, wenn t gegen unendlich geht. Es ist ein Prozess zur Maximierung der Entropie von G aus der Perspektive von D, daher der Begriff der Kreuzentropie.
Wie Konvergenz erreicht wird
Weil die Verlustfunktion, die aus Sietas Schreiben von 2017 in der Frage hervorgeht, die von D ist, um die Kreuzentropie (oder Korrelation) zwischen den beiden Verteilungen zu minimieren, wenn sie auf den vollständigen Satz von Punkten für einen gegebenen Trainingszustand angewendet wird.
H( ( x1, y1) , D ) = 1D ( x1)
Es gibt eine separate Verlustfunktion für G, um die Kreuzentropie zu maximieren. Beachten Sie, dass das System über ZWEI Ebenen der Trainingsgranularität verfügt.
- Das Spiel bewegt sich in einem Zwei-Spieler-Spiel
- Das der Trainingsmuster
Diese erzeugen eine verschachtelte Iteration mit der äußeren Iteration wie folgt.
- Das Training von G erfolgt unter Verwendung der Verlustfunktion von G.
- Mock-Eingabemuster werden aus G in seinem aktuellen Trainingszustand generiert.
- Das Training von D erfolgt unter Verwendung der Verlustfunktion von D.
- Wiederholen, wenn die Kreuzentropie noch nicht ausreichend maximiert ist, D kann immer noch unterscheiden.
Als D endlich das Spiel verliert, haben wir unser Ziel erreicht.
- G hat die Trainingsdatenverteilung wiederhergestellt
- D wurde auf Ineffektivität reduziert ("1/2 Wahrscheinlichkeit überall")
Warum gleichzeitiges Training notwendig ist
Wenn die beiden Modelle nicht vor und zurück trainiert würden, um die Parallelität zu simulieren, würde bei der in der Veröffentlichung von 2014 beanspruchten einzigartigen Lösung keine Konvergenz in der gegnerischen Ebene (der äußeren Iteration) auftreten.
Mehr Informationen
Über die Frage hinaus ist der nächste Punkt, der in Sietas Artikel von Interesse ist, dass "eine schlechte Auslegung der Verlustfunktion des Generators" zu unzureichenden Gradientenwerten führen kann, um den Abstieg zu leiten und eine sogenannte Sättigung zu erzeugen. Die Sättigung ist einfach die Reduzierung des Rückkopplungssignals, das den Abstieg bei der Rückausbreitung zu chaotischem Rauschen führt, das durch die Gleitkommarundung entsteht. Der Begriff stammt aus der Signaltheorie.
Ich schlage vor, das Paper von Goodfellow et alia (den erfahrenen Forschern) aus dem Jahr 2014 zu studieren , um mehr über die GAN-Technologie zu erfahren und nicht die Seite 2017.