Die Schlüsselwörter hier sind Prioritäten und Skalierung . Stellen Sie sich als einfaches Beispiel vor, Sie versuchen, das Alter einer Person anhand eines Fotos vorherzusagen. Mit einem Datensatz aus Bildern und Alter können Sie ein Deep-Learning-Modell trainieren, um Vorhersagen zu treffen. Dies ist objektiv wirklich ineffizient, da 90% des Bildes nutzlos sind und nur die Region mit der Person tatsächlich nützlich ist. Insbesondere das Gesicht der Person, ihr Körper und vielleicht ihre Kleidung.
Auf der anderen Seite können Sie stattdessen ein vorab geschultes Objekterkennungsnetzwerk verwenden, um zuerst Begrenzungsrahmen für die Person zu extrahieren, das Bild zuzuschneiden und es dann durch das Netzwerk zu leiten. Dieser Prozess verbessert die Genauigkeit Ihres Modells aus mehreren Gründen erheblich:
1) Alle Netzwerkressourcen (dh Gewichte) können sich auf die eigentliche Aufgabe der Altersvorhersage konzentrieren, anstatt zuerst die Person finden zu müssen. Dies ist besonders wichtig, da das Gesicht der Person nützliche Funktionen enthält. Andernfalls können die feineren Funktionen, die Sie benötigen, in den ersten Ebenen verloren gehen. Theoretisch könnte ein ausreichend großes Netzwerk dies lösen, aber es wäre absolut ineffizient. Das zugeschnittene Bild ist auch wesentlich regelmäßiger als das Originalbild. Während das Originalbild eine Menge Rauschen aufweist, sind die Diskrepanzen im zugeschnittenen Bild möglicherweise viel stärker mit dem Objektiv korreliert.
2) Das zugeschnittene Bild kann normalisiert werden, um den gleichen Maßstab zu haben . Dies hilft dem zweiten Netzwerk bei der Lösung von Skalierungsproblemen, da im Originalbild Personen in der Nähe oder in der Ferne auftreten können. Durch vorheriges Normalisieren der Skalierung wird sichergestellt, dass das zugeschnittene Bild garantiert eine Person enthält, die das vollständig zugeschnittene Bild ausfüllt (obwohl es pixelig ist, wenn es weit entfernt ist). Um zu sehen, wie dies zur Skalierung beitragen kann, muss ein zugeschnittener Körper, der halb so breit und hoch wie das Originalbild ist, 4x weniger Pixel verarbeiten, und daher würde dasselbe Netzwerk, das auf dieses Bild angewendet wird, 4x das Empfangsfeld des Originalnetzwerks auf jeder Ebene haben.
Zum Beispiel war im Kaggle-Lungenwettbewerb ein häufiges Thema in den Top-Lösungen eine Art Vorverarbeitung von Lungenbildern , die sie so weit wie möglich beschnitten und die Komponenten jeder Lunge isolierten. Dies ist besonders wichtig bei 3D-Bildern, da der Effekt kubisch ist: Wenn Sie 20% jeder Dimension entfernen, werden fast die Hälfte der Pixel entfernt!