Eine gute theoretische Analyse von mit und ohne Ersetzungsschemata im Kontext von iterativen Algorithmen auf der Basis von Zufallszügen (gegen die wie viele diskriminative Deep Neural Networks (DNNs) trainiert werden) kann hier gefunden werden
Kurz gesagt stellt sich heraus, dass eine Abtastung ohne Ersatz zu einer schnelleren Konvergenz führt als eine Abtastung mit Ersatz.
Ich werde hier eine kurze Analyse anhand des von ihnen bereitgestellten Spielzeugbeispiels geben: Nehmen wir an, wir möchten die folgende Zielfunktion optimieren:
xopt= argMindestx12∑i = 1N( x - yich)2
wo das Ziel . In diesem Beispiel versuchen wir, für das optimale zu lösen , wobei offensichtlich Bezeichnungen von .x N y iyich∼ N( μ , σ2)xNyich
Ok, wenn wir also direkt nach dem optimalen im obigen Beispiel auflösen würden, würden wir die Ableitung der Verlustfunktion hier nehmen, auf 0 setzen und nach . In unserem obigen Beispiel ist der Verlust alsoxxx
L = 12∑i = 1N( x - yich)2
und es ist die erste Ableitung wäre:
δLδx= ∑i = 1N( x - yich)
Wenn Sie auf 0 setzen und nach auflösen, erhalten Sie: xδLδxx
xopt= 1N∑i = 1Nyich
Mit anderen Worten, die optimale Lösung ist nichts anderes als der Stichprobenmittelwert aller Stichproben von .yNy
Wenn wir die obige Berechnung nicht auf einmal durchführen könnten, müssten wir sie rekursiv über die unten stehende Gleichung zur Aktualisierung des Gefälleverlaufs ausführen:
xich= xi - 1- λich∇ ( f( xi - 1) )
Wenn Sie hier einfach unsere Begriffe einfügen, erhalten Sie:
xich= xi - 1- λich( xi - 1- yich)
Wenn wir das Obige für alle ausführen, führen wir dieses Update tatsächlich ohne Ersatz durch. Dann stellt sich die Frage, ob wir auf diese Weise auch den optimalen Wert von können. (Denken Sie daran, dass der optimale Wert von nichts anderes ist als der Stichprobenmittelwert von ). Die Antwort lautet ja, wenn Sie . Um dies zu sehen, erweitern wir: x x y λ i = 1 / ii ∈ 1 , 2 , . . . Nxxyλich= 1 / i
xich= xi - 1- λich( xi - 1- yich) xich= xi - 1- 1ich( xi - 1- yich) xich= i xi - 1- ( xi - 1- yich)ich xich= ( i - 1 ) xi - 1+ yichich i xich= ( i - 1 ) xi - 1+ yich
Die letzte Gleichung ist jedoch nichts anderes als die Formel für den laufenden Durchschnitt! Wenn wir also die Menge von , usw. bis zu durchlaufen , hätten wir unsere Aktualisierungen ohne Ersetzung durchgeführt, und unsere Aktualisierungsformel gibt uns die optimale Lösung von , d. H Probe bedeuten!i = 1i = 2i = Nx
NxN= ( N- 1 ) xN- 1+ yN= = > xN= 1N∑i = 1Nyich= μ
Aber im Gegensatz dazu , wenn wir tatsächlich zogen mit Ersatz, dann während unseres zieht wäre dann wirklich unabhängig sein, der optimierte Wert wäre anders , von dem (optimal) Mittelwert , und der quadratischen Fehler würde gegeben sein: μxNμ
E{ ( xN- μ )2}
Das wird ein positiver Wert, und dieses einfache Spielzeugbeispiel kann auf höhere Dimensionen ausgedehnt werden. Dies hat zur Folge, dass wir die Probenahme ersatzlos als optimalere Lösung durchführen möchten.
Hoffe das klärt es noch ein wenig!