Warum schließen CNNs mit FC-Schichten ab?

Nach meinem Verständnis bestehen CNNs aus zwei Teilen. Der erste Teil (Conv / Pool-Schichten), der die Merkmalsextraktion durchführt, und der zweite Teil (fc-Schichten), der die Klassifizierung aus den Merkmalen vornimmt.

Da vollständig verbundene neuronale Netze nicht die besten Klassifizierer sind (dh sie werden die meiste Zeit von SVMs und RFs übertroffen), warum schließen CNNs mit FC-Schichten ab, anstatt sagen wir eine SVM oder eine RF?

— Mary93
quelle

Es ist nicht so einfach. Erstens ist eine SVM in gewisser Weise eine Art neuronales Netzwerk (Sie können eine SVM-Lösung durch Backpropagation lernen). Siehe Was ist ein künstliches neuronales Netzwerk? . Zweitens können Sie nicht im Voraus wissen, welches Modell besser funktioniert, aber mit einer vollständig neuromorphen Architektur können Sie die Gewichte von Ende zu Ende lernen, während Sie eine SVM oder RF an die letzte verborgene Schichtaktivierung eines CNN anhängen einfach ein Ad-hoc- Verfahren. Es kann besser funktionieren und es kann nicht, wir können es nicht ohne Tests wissen.

Der wichtige Teil ist, dass eine vollständig faltungsorientierte Architektur Repräsentationslernen kann, was aus einer Vielzahl von Gründen nützlich ist. Ausnahmsweise kann dies das Feature-Engineering in Ihrem Problem reduzieren oder ganz eliminieren.

Die FC-Schichten entsprechen mathematisch den 1x1-Faltungsschichten. Siehe Yann Lecuns Beitrag , den ich unten transkribiere:

In Faltungsnetzen gibt es keine "vollständig verbundenen Schichten". Es gibt nur Faltungsschichten mit 1x1-Faltungskernen und einer vollständigen Verbindungstabelle.

Es ist eine zu selten verstandene Tatsache, dass ConvNets keine Eingabe mit fester Größe benötigen. Sie können sie auf Eingaben trainieren, die zufällig einen einzelnen Ausgabevektor (ohne räumliche Ausdehnung) erzeugen, und sie dann auf größere Bilder anwenden. Anstelle eines einzelnen Ausgabevektors erhalten Sie dann eine räumliche Karte der Ausgabevektoren. Jeder Vektor sieht Eingabefenster an verschiedenen Stellen der Eingabe.

In diesem Szenario wirken die "vollständig verbundenen Schichten" tatsächlich als 1x1-Windungen.

— Firebug
quelle