Die Bildklassifizierung ist die Aufgabe , einem bestimmten Bild eine von zuvor bekannten Beschriftungen zuzuweisen. Zum Beispiel wissen Sie, dass Sie ein paar Fotos erhalten und jedes einzelne Bild genau eines von . Der Algorithmus sollte sagen, was das Foto zeigt.
Der Benchmark-Datensatz für die Bildklassifizierung ist ImageNet . Insbesondere Ihre groß angelegte Herausforderung zur visuellen Erkennung (LSVRC) . Es hat genau 1000 Klassen und eine riesige Menge an Trainingsdaten (ich denke, es gibt eine heruntergesampelte Version mit etwa 250 x 250 Pixel großen Bildern, aber viele Bilder scheinen von Flicker zu stammen).
Diese Herausforderung wird normalerweise mit CNNs (oder anderen neuronalen Netzen) gelöst.
Gibt es ein Papier, das einen Ansatz versucht, bei dem keine neuronalen Netze in LSVRC verwendet werden?
Um die Frage zu klären: Natürlich gibt es andere Klassifizierungsalgorithmen wie nächste Nachbarn oder SVMs. Ich bezweifle jedoch, dass sie überhaupt für so viele Klassen / so viele Daten funktionieren. Zumindest für NNs bin ich mir sicher, dass die Vorhersage extrem langsam sein würde; Für SVMs wäre sowohl die Anpassung als auch die Vorhersage viel zu langsam (?).k