Die Eigenschaften von Bildern, die eine Klassifizierung in einem tiefen neuronalen Netzwerk ermöglichen, sind eine Vielzahl von Merkmalen (möglicherweise Millionen, wenn nicht Milliarden von Pixeln mit RGB, Intensität usw.), und wenn Sie genaue Beschriftungen haben, sind es keine verrauschten Daten. Kameras sind heutzutage sehr gut und sie messen nichts falsch. Dank des Internets haben wir jetzt viele genau beschriftete Bilder. Ein tiefes Netzwerk kann willkürlich komplizierte Funktionen ausdrücken, was ein Problem bei verrauschten Daten ist, da Sie das Rauschen sehr leicht überlagern können, weshalb viele Lernmethoden dazu neigen, komplizierte Modelle zu benachteiligen. Bei der Bilderkennung scheint die eigentliche Funktion jedoch sehr kompliziert zu sein, wir haben keine Ahnung, wie die funktionale Form aussieht, und wir wissen in vielen Fällen nicht einmal, welche Merkmale relevant sind.
Dies bedeutet nicht, dass Sie keine tiefen Netzwerke verwenden können, um Funktionen zu erlernen, die nichts mit Bildern zu tun haben. Sie müssen nur sehr vorsichtig mit den Nachteilen umgehen, vor allem, dass es sehr anfällig für Überanpassungen ist, aber auch, dass es rechenintensiv ist und lange trainieren kann (heutzutage kein Problem mit parallelisierten SGDs und GPUs). Der andere Nachteil ist, dass Sie kaum oder gar keine Interpretierbarkeit des Modells haben, was für die Bildklassifizierung nicht wirklich wichtig ist. Wir versuchen nur, Computer dazu zu bringen, den Unterschied zwischen einem Schimpansen und einem Orang-Utan zu erkennen. Das menschliche Verständnis der Formel spielt keine Rolle. Für andere Bereiche, insbesondere medizinische Diagnostik, Richtlinienforschung usw., möchten oder benötigen Sie möglicherweise sogar menschliches Verständnis.