One-Shot-Objekterkennung mit Deep Learning


7

In den letzten Jahren hat das Gebiet der Objekterkennung nach der Popularisierung des Deep-Learning-Paradigmas einen großen Durchbruch erlebt. Ansätze wie YOLO, SSD oder FasterRCNN halten den Stand der Technik in der allgemeinen Aufgabe der Objekterkennung [ 1 ].

In dem spezifischen Anwendungsszenario, in dem wir nur ein Referenzbild für das Objekt / Logo erhalten, das wir erkennen möchten, scheinen Deep-Learning-basierte Methoden weniger anwendbar zu sein, und lokale Feature-Deskriptoren wie SIFT und SURF erscheinen als geeignetere Alternativen. mit Bereitstellungskosten nahe Null.

Meine Frage ist, können Sie auf einige Anwendungsstrategien hinweisen (vorzugsweise mit verfügbaren Implementierungen und nicht nur mit Forschungsarbeiten, die diese beschreiben), bei denen Deep Learning mit nur einem Trainingsbild pro Objektklasse erfolgreich zur Objekterkennung eingesetzt wird?

Beispiel für ein Anwendungsszenario:

Einzelne Trainings- / Referenzbild Beispielbild, in dem wir das Logo erkennen müssen

In diesem Fall erkennt SIFT das Logo im Bild erfolgreich:

Erfolgreiche Erkennung mit SIFT


FaceID, wo bei einem einzelnen Foto Personen erkannt werden
Tim

Antworten:


3

Wie sich herausstellt, erhalten Sie nur gute Ergebnisse, wenn Sie ein gewöhnliches Objekterkennungsnetzwerk mit einer Reihe von Datenerweiterungen trainieren.

Ich habe das "Coca Cola" -Logo von Ihrem Beitrag genommen und einige zufällige Erweiterungen vorgenommen. Dann habe ich 10000 zufällige Bilder von flickr heruntergeladen und das Logo zufällig auf diese Bilder eingefügt. Ich habe den Bildern auch zufällige rote Bereiche hinzugefügt, damit das Netzwerk nicht erfährt, dass ein roter Fleck ein gültiges Objekt ist. Einige Beispiele aus meinen Trainingsdaten:

Geben Sie hier die Bildbeschreibung ein Geben Sie hier die Bildbeschreibung ein Geben Sie hier die Bildbeschreibung ein Geben Sie hier die Bildbeschreibung ein

Ich habe dann ein RCNN-Modell für diesen Datensatz trainiert. Hier sind einige Test-Set-Bilder, die ich auf Google-Bildern gefunden habe, und das Modell scheint ziemlich in Ordnung zu sein.

Geben Sie hier die Bildbeschreibung ein Geben Sie hier die Bildbeschreibung ein Geben Sie hier die Bildbeschreibung ein

Die Ergebnisse sind nicht perfekt, aber ich habe das in ungefähr 2 Stunden zusammengeschlagen. Ich gehe davon aus, dass Sie mit etwas mehr Sorgfalt bei der Datengenerierung und beim Training des Modells weitaus bessere Ergebnisse erzielen können.

Ich denke, Ideen aus Artikeln wie " Lernen, den Schwanz zu modellieren" könnten verwendet werden, um das Lernen neuer Objektkategorien mit nur einem oder wenigen Beispielen zu ermöglichen, anstatt wie ich eine Reihe von Daten generieren zu müssen, aber ich bin mir dessen nicht bewusst sie machen irgendwelche Experimente mit Objekterkennung.


Ja, das ist der Ansatz, den wir seit einiger Zeit anwenden. Ich wollte nur wissen, ob dies schon in der Literatur angewendet wurde ... Vielen Dank für Ihre Antwort!
Daniel López
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.