In den letzten Jahren sind Convolutional Neural Networks (CNNs) zum Stand der Technik für die Objekterkennung in der Computersicht geworden. Typischerweise besteht ein CNN aus mehreren Faltungsschichten, gefolgt von zwei vollständig verbundenen Schichten. Eine Intuition dahinter ist, dass die Faltungsschichten eine bessere Darstellung der Eingabedaten lernen und die vollständig verbundenen Schichten dann lernen, diese Darstellung basierend auf einer Reihe von Beschriftungen zu klassifizieren.
Bevor jedoch CNNs zu dominieren begannen, waren Support Vector Machines (SVMs) Stand der Technik. Es erscheint daher sinnvoll zu sagen, dass eine SVM immer noch ein stärkerer Klassifikator ist als ein vollständig verbundenes neuronales Netzwerk mit zwei Schichten. Daher frage ich mich, warum CNNs nach dem neuesten Stand der Technik die vollständig verbundenen Schichten eher für die Klassifizierung als für eine SVM verwenden. Auf diese Weise hätten Sie das Beste aus beiden Welten: eine starke Feature-Repräsentation und einen starken Klassifikator anstelle einer starken Feature-Repräsentation, aber nur einen schwachen Klassifikator ...
Irgendwelche Ideen?