Ein kürzlich veröffentlichtes Papier von He et al. ( Deep Residual Learning für die Bilderkennung , Microsoft Research, 2015) behauptet, dass sie bis zu 4096 Schichten (keine Neuronen!) Verwenden.
Ich versuche das Papier zu verstehen, aber ich stolpere über das Wort "Rest".
Könnte mir bitte jemand eine Erklärung / Definition geben, was Residuum in diesem Fall bedeutet?
Beispiele
Wir formulieren die Ebenen explizit neu als Lernrestfunktionen in Bezug auf die Ebeneneingaben, anstatt nicht referenzierte Funktionen zu lernen.
[...]
Anstatt zu hoffen, dass alle paar gestapelten Ebenen direkt zu einer gewünschten zugrunde liegenden Zuordnung passen, lassen wir diese Ebenen explizit zu einer Restzuordnung passen. Wenn wir die gewünschte zugrunde liegende Zuordnung als , lassen wir die gestapelten nichtlinearen Ebenen formal zu einer anderen Zuordnung von passen . Die ursprüngliche Zuordnung wird in gefasst . Wir nehmen an, dass es einfacher ist, die Restzuordnung zu optimieren, als die ursprüngliche, nicht referenzierte Zuordnung zu optimieren