Erhöhen oder verringern mehr Objektklassen die Genauigkeit der Objekterkennung?


7

Angenommen, Sie haben einen Objekterkennungsdatensatz (z. B. MS COCO oder Pascal VOC) mit N Bildern, in denen k Objektklassen gekennzeichnet sind. Sie trainieren ein neuronales Netzwerk (z. B. Faster-RCNN oder YOLO) und messen die Genauigkeit (z. B. IOU@0.5).

Jetzt führen Sie x zusätzliche Objektklassen ein und fügen Ihrem ursprünglichen Datensatz die entsprechenden Beschriftungen hinzu. Dadurch erhalten Sie einen Datensatz mit N Bildern, in denen k + x Objektklassen beschrieben wurden.

Wird die Genauigkeit des trainierten Netzwerks zunehmen oder abnehmen?

Genauer gesagt haben wir einen Verkehrszeichendatensatz mit ungefähr 20 Objektklassen. Jetzt denken wir darüber nach, zusätzliche Verkehrszeichenklassen hinzuzufügen (Beschriften der neuen Klassen, ohne neue Bilder hinzuzufügen oder unsere Netzwerkarchitektur zu ändern), und wir fragen uns, ob dies die Leistung verringern oder verringern wird.

Einerseits denke ich, dass mehr Objektklassen die Unterscheidung zwischen Klassen erschweren werden. Darüber hinaus kann ein neuronales Netzwerk nur eine begrenzte Menge an Informationen enthalten. Wenn also die Anzahl der Klassen sehr groß wird, sind möglicherweise nicht genügend Gewichte vorhanden, um alle Klassen zu bewältigen.

Auf der anderen Seite bedeuten mehr Objektklassen mehr Beschriftungen, die dem neuronalen Netzwerk helfen können. Darüber hinaus kann die Übertragung von Lerneffekten zwischen Klassen die Genauigkeit des Netzwerks erhöhen.

Meiner Meinung nach sollte es für jede Netzwerkarchitektur eine Art Sweet-Spot geben, aber ich konnte keine Literatur, Forschung oder Experimente zu diesem Thema finden.


Ich verstehe nicht, was Sie versuchen zu tun. Nach meinem Verständnis verfügen Sie über ein geschultes Netzwerk, das alle relevanten Parameter (Eingabe, Ausgabe, Gewichte, Architektur) festlegt. Was versuchst du zu ändern? Wenn Sie die Eingabedaten ändern, können Sie nicht sagen, was passieren wird. Wenn Sie die Form der Eingabe, Architektur oder Ausgabe ändern, kann das Netzwerk nicht mehr verwendet werden, da es nicht mehr definiert ist.
Cherub

@cherub Entschuldigung, wenn dies unklar war, werden die Parameter Eingabe, Ausgabe und Gewichte während des Trainingsprozesses der größeren Datensätze geändert (mit zusätzlichen Klassenbezeichnungen). Die Gesamtarchitektur des Netzwerks sollte jedoch erhalten bleiben.
SaiBot

Antworten:


3

Das spezifische Klassifizierungsverhalten hängt von der bestimmten Modellform ab, die einer Klassifizierungsmethode zugrunde liegt. Die genaue Reaktion eines Modells auf zusätzliche Objektklassen kann in bestimmten Fällen mathematisch abgeleitet werden, obwohl dies kompliziert sein kann. Da Sie keine Details zu einer bestimmten Methode angegeben haben, gehe ich davon aus, dass Sie mehr an der allgemeinen Reaktion von Klassifizierungsmodellen auf das Hinzufügen oder Entfernen von Objektklassen interessiert sind . Um dies zu beantworten, werde ich intuitiv erklären, was Sie in einem rationalen Modell dieser Art von Situation erwarten sollten. In dem Maße, in dem das Modell unter allgemeinen Bedingungen von diesem intuitiven Ergebnis abweicht, betrachte ich dies als Mangel. Daher betrachte ich die folgenden Antworten als Desiderat für ein Objektvorhersagesystem.


Vorhersage in einem Modell mit beliebigen Objektklassen: Um die Analyse dieses Problems zu erleichtern, nehmen wir an, Sie haben Bilder von Straßenschildern (oder irgendetwas anderem), die jeweils als einzelne von Typen vorliegen. Lassen Sie ohne Verlust der Allgemeinheit die wahren Typen der Objekte sein, die Sie klassifizieren möchten , wobei die wahren Objekttypen sind. Angenommen, Sie legen ein Erkennungssystem fest, das jedes Bild in Typen in der endlichen Menge , wobei wir feststellen, dass Beschriftungen enthalten kann, die sich inNmθ1,...,θNM{1,2,...,m}MSNSMEs kann jedoch auch Werte enthalten, die nicht in diesem Satz enthalten sind (dh, Ihr Erkennungssystem versucht möglicherweise, Objekttypen zu finden, die nicht vorhanden sind).

Ein Erkennungssystem dieser Art betrachtet Bilddaten von jedem der Bilder und verwendet diese Daten, um jedes Bild basierend auf den zulässigen Typen im Modell in einen geschätzten Typ zu klassifizieren. Im Allgemeinen kann dies durch die folgenden Komponenten beschrieben werden:

DataModel TypesEstimatesx1,...,xNSθ^1,...,θ^NS

Die Wahrscheinlichkeit einer korrekten Klassifizierung von Bild für ein Modell mit den Typen ist:iS

pi(S)P(θ^i=θi|x,S)=sM  SP(θ^i=s|x,S)I(θi=s).

Die Elemente der letzteren Summierung unterliegen der Wahrscheinlichkeitsbeschränkung:

sM  SP(θ^i=s|x,S)=1.

Wenn nun dann ist , da der wahre Objekttyp nicht im Modell enthalten ist. Wenn also Elemente von nicht in , kann dies dazu führen, dass diese fehlenden Elementtypen nicht korrekt identifiziert werden können. Wenn wir dagegen ein Element aus der Menge , ist ceteris paribusθiSpi(S)=0MSSDies erhöht die Wahrscheinlichkeit der Vorhersage der verbleibenden Objekttypen, da die Wahrscheinlichkeiten der Vorhersagen eins ergeben müssen. Daher erhöht der Ausschluss eines Objekttyps tendenziell die Vorhersagewahrscheinlichkeiten für andere Objekttypen, wodurch sich die Wahrscheinlichkeit einer korrekten Vorhersage für echte Objekttypen in .S

Eine detailliertere Analyse müsste die Verbindung zwischen den Daten und den Objektvorhersagen herstellen. Wir werden hier nicht näher auf dieses Thema eingehen, da das jeweilige Modell nicht spezifiziert ist. Allerdings können wir es als eine allgemeine Eigenschaft von Vorhersagemodellen nehmen , dass sie größere Schwierigkeiten zu haben , neigen dazu , Objekttypen differenzieren , die aussehen ähnlich und neigen dazu , weniger zu haben , schwer Objekttypen differenzieren , die aussehen unähnlich . Daher erhöht der Ausschluss eines Objekttyps aus der Menge tendenziell die Wahrscheinlichkeit der Vorhersage anderer Objekttypen in dieser Menge, die diesem ausgeschlossenen Objekt ähnlich sehen, in Fällen, in denen die Daten einem dieser Typen förderlich sind .xS


Die obige Darstellung soll einige allgemeine Hinweise geben, in denen die Wahrscheinlichkeitsbeschränkung bei Vorhersagen und die Art und Weise, wie sich dies auf die Wahrscheinlichkeit einer korrekten Vorhersage auswirkt, hervorgehoben werden. Dies führt zu den folgenden allgemeinen Prinzipien eines rational konstruierten Klassifikationsmodells. Ceteris paribus sollte Folgendes (zumindest ungefähr) gelten:

  • Wenn ein echter Objekttyp aus dem Klassifizierungsmodell ausgeschlossen wird, verringert dies die Wahrscheinlichkeit einer korrekten Vorhersage dieses Objekttyps auf Null, erhöht jedoch tendenziell die Wahrscheinlichkeit einer korrekten Vorhersage für andere Objekttypen (insbesondere Objekttypen, die so aussehen ausgeschlossener Typ);

  • Wenn dem Klassifizierungsmodell ein echter Objekttyp hinzugefügt wird, kann das Modell eine Wahrscheinlichkeit ungleich Null für eine korrekte Vorhersage dieses Objekttyps aufweisen, verringert jedoch tendenziell die Wahrscheinlichkeit einer korrekten Vorhersage für andere Objekttypen (insbesondere für Objekte) Typen, die wie der hinzugefügte Typ aussehen);

  • Wenn ein falscher Objekttyp aus dem Klassifizierungsmodell ausgeschlossen wird, erhöht dies tendenziell die Wahrscheinlichkeit einer korrekten Vorhersage für alle echten Objekttypen (insbesondere Objekttypen, die wie dieser ausgeschlossene Typ aussehen). und

  • Wenn dem Klassifizierungsmodell ein falscher Objekttyp hinzugefügt wird, verringert dies tendenziell die Wahrscheinlichkeit einer korrekten Vorhersage für alle echten Objekttypen (insbesondere Objekttypen, die dem hinzugefügten Typ ähneln).

Diese allgemeinen Prinzipien können in bestimmten Modellen einige pathologische Ausnahmen aufweisen, wenn zwischen Bildern eine komplexe Multikollinearität besteht. Sie sollten jedoch als allgemeine Regeln gelten, die in gut erzogenen Modellen unter allgemeinen Bedingungen auftreten werden.


Vielen Dank für Ihre ausführliche Antwort, die mir einige wichtige Einblicke gab. Die Antwort konzentriert sich auf meine Annahme, dass "mehr Objektklassen die Unterscheidung zwischen Klassen erschweren". Denken Sie an die vier Effekte, die ich in meiner Frage erwähnt habe, dies ist der wichtigste Faktor? Ich habe immer noch das Gefühl, dass mehr Etiketten diesen Effekt ausgleichen könnten (zumindest bis zu einem gewissen Punkt). Insbesondere der Regionalvorschlagsteil des Netzwerks wird sicherlich von mehr Daten profitieren.
SaiBot

1
Es ist wirklich schwer zu sagen. Diese Art von multivariaten Problemen wird in der Regel von den Hauptkomponenten (Eigenvektoren und Eigenwerte) in der von Ihnen verwendeten Datenmatrix beeinflusst. Das Hinzufügen neuer Bilder wirkt sich nicht trivial aus, was mathematisch kompliziert ist. Ich bin damit einverstanden, dass es zu einer Kompensation von Effekten kommt, wenn Sie zwei entgegengesetzte Effekte hinzufügen, aber es ist sehr schwierig, den Gesamteffekt zu sagen.
Ben - Reinstate Monica

Danke @Ben, ich denke das ist eine sehr gute aber teilweise Antwort. Ich werde das Kopfgeld vergeben, es aber aus diesem Grund nicht annehmen und hoffe, dass es in Ordnung ist.
SaiBot

Kein Problem (und danke für die Prämie), aber ich denke, Sie werden wahrscheinlich feststellen, dass eine detailliertere Antwort die Angabe der von Ihnen verwendeten Modellform erfordert, damit die Benutzer die mathematischen Eigenschaften untersuchen können. Viel Glück bei Ihrem Problem.
Ben - Reinstate Monica

1

Hier finden Sie eine detaillierte theoretische Analyse zu diesem Thema. https://arxiv.org/pdf/1506.01567.pdf .

Ich denke, das hängt vom spezifischen Problem und Modell ab. Die mathematischen Aussagen der obigen Antwort können nur über allgemeine statistische Modelle gesagt werden. In Bilddaten betrachten wir sehr hohe Dimensionen, und die Mathematik auf dieser Ebene (die extreme Nichtlinearität tiefer Modelle trägt ebenfalls dazu bei) wird sehr kompliziert sein. Was wir intuitiv denken können (unter Verwendung eines Diskriminanzfunktionsansatzes), ist, dass je besser die Klassen sind (vorausgesetzt, die Variation zwischen Klassen ist ausreichend), desto besser kann das Modell die Diskriminanzfunktion zwischen Klassen zeichnen. Wenn also die Diskriminanzfunktion detaillierter ist, ist die Verallgemeinerungsfähigkeit des Modells größer, wenn ein unsichtbares Bild / Beispiel vorhergesagt wird.

Stellen Sie sich das als Trennung zwischen Datenclustern in einer sehr hohen Dimension vor. Wenn Sie die Cluster genauer trennen können, ist es wahrscheinlicher, dass Sie ein eingehendes unsichtbares Beispiel / Bild klassifizieren.

Übrigens, informieren Sie uns über das Experiment und ob es zugenommen hat oder nicht. TIA.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.