Ich wurde von dieser Frage im Stackoverflow hierher geschickt . Bitte entschuldigen Sie, wenn die Frage zu spezifisch ist und nicht in der Art und Weise hier steht :)
Die Aufgabe besteht darin, ein Glas mit einer bestimmten Flüssigkeit darin zu finden. Lassen Sie mich Ihnen die Bilder zeigen und dann in der Beschreibung unter den Bildern beschreiben, was ich erreichen möchte und wie ich bisher versucht habe, dies zu erreichen.
Die Bilder : (anscheinend brauche ich mindestens 10 Ruf, um Bilder und Links zu posten, also müssen Links Folgendes tun :( Andernfalls können Sie sich die Frage zum Stapelüberlauf ansehen.)
Eine detaillierte Beschreibung : Ich habe versucht, einen Algorithmus zu implementieren, der ein Glas einer bestimmten Form in opencv erkennt (Glas kann durch einen anderen Aufnahmewinkel / -abstand der Kamera transformiert werden). Es wird auch andere Gläser anderer Formen geben. Das Glas, nach dem ich suche, wird auch mit einer farbigen Flüssigkeit gefüllt, die es von Gläsern mit anderen Farben unterscheidet.
Bisher habe ich versucht, mit dem SIFT-Funktionsextraktor einige Funktionen im Glas zu finden und sie dann mit anderen Fotos mit dem Glas darin abzugleichen.
Dieser Ansatz funktionierte nur unter sehr spezifischen Bedingungen, unter denen ich Glas an einer ganz bestimmten Position hätte und der Hintergrund den Lernbildern ähnlich wäre. Das Problem ist auch, dass das Glas ein 3D-Objekt ist und ich nicht weiß, wie ich Features daraus extrahieren kann (vielleicht mehrere Fotos aus verschiedenen Blickwinkeln - irgendwie miteinander verbunden?).
Jetzt weiß ich nicht, welchen anderen Ansatz ich verwenden könnte. Ich habe einige Hinweise dazu gefunden (hier /programming/10168686/algorithm-improvement-for-coca-cola-can-shape-recognition#answer-10219338 ), aber die Links scheinen unterbrochen zu sein.
Ein weiteres Problem wäre, unterschiedliche "Leeregrade" in einem solchen Glas zu erkennen, aber ich konnte das Glas selbst nicht einmal richtig finden.
Was würden Sie zum Ansatz bei dieser Aufgabe empfehlen? Wäre es besser, die lokale 3D-Objektfunktion auf andere Weise zu finden? Oder wäre es besser, einen anderen Ansatz zu verwenden? Ich habe von Algorithmen gehört, die das Objekt aus mehreren Fotos "lernen", aber ich habe dies in der Praxis noch nie gesehen.
Jeder Rat wäre sehr dankbar