Präzision von Computer Vision-Algorithmen

Angenommen, die Aufgabe besteht darin, die Elementposition auf dem Bild zu bestimmen. Zuerst ist die korrekte Erkennung des Objekts sehr wichtig, dann werden einige Algorithmen zur Positionsberechnung verwendet (zum Beispiel für die Blob-Analyse). Alles hängt von mehreren Dingen ab (Erkennungskorrektheit, verwendete Algorithmen usw.)

Nehmen wir an, wir haben ein kalibriertes Bild und kennen den Fehler, der durch die Kalibrierung verursacht wurde. Mit welchen Methoden kann die Genauigkeit von Computer- (und Machine-) Vision-Algorithmen zuverlässig berechnet werden? Kann es analytisch oder nur durch Experimente und Tests durchgeführt werden?

Die Frage betrifft Fälle, in denen wir die Elementposition und auch andere Probleme mit der Bildverarbeitung erkennen.

Ich möchte Hinweise auf Probleme erhalten, die mit der Computer- / Bildverarbeitung zusammenhängen, insbesondere auf die Erkennung der Elementposition, und einige Korrektheitsberechnungen entweder analytisch oder experimentell vorstellen, um diese Präzision zu zeigen.

Auch Vorschläge zur Verbesserung dieser Frage sind willkommen.

image-processing computer-vision reference-request

— krzych
quelle

Antworten:

Zum Beispiel schlagen Hartley & Zisserman vor, vor der Homographieschätzung eine Vorkonditionierung zu verwenden, da die direkte Matrixinverse zu großen Fehlern oder Instabilitäten führen kann. Dies gilt für alle numerischen Methoden, die mit der inversen Matrix arbeiten.

Merkmalserkennungsalgorithmen verwenden häufig eine Subpixel-Approximation der Position des interessierenden Punkts.

Die meisten Bücher über numerische Methoden befassen sich auch mit ihrer Stabilitätsanalyse.

Manchmal müssen Sie Statistiken erstellen, um die Präzision und Genauigkeit Ihres Schätzers zu analysieren (sei es ein Schätzer für kleinste Quadrate oder ein Schätzer für maximale Wahrscheinlichkeit). Dies ist nützlich bei Algorithmen wie RANSAC , die sich mit Ausreißern befassen. Sie möchten auch wissen, wie gut die geschätzte Transformation zu Ihren Daten passt, und möglicherweise zu ungenaue Ergebnisse verwerfen.

Wenn Sie mit endlicher Differenzierung arbeiten oder etwas filtern, wird eine leichte Gaußsche Unschärfe durchgeführt, um Rauschen zu entfernen, das andernfalls große Fehler bei zweiten Ableitungen verursachen würde.

Einige Probleme in der Bildverarbeitung sind schlecht gestellt. Eine Regularisierungsmethode (eine solche Tikchonov-Regularisierung) ist erforderlich, um sie zu lösen. Beispiele, bei denen dies erforderlich ist, umfassen die Berechnung der anisotropen Diffusion.

— Libor
quelle

Dies gilt also, wenn wir einige Features erkannt und mit Modell-Features mit Statistiken abgeglichen haben (und dieses Matching einen Fehler ergibt, den wir berechnen können). Wie wäre es mit Fehlern bei der Erkennung von Rechenfunktionen? Zum Beispiel, wenn Features durch Schwellenwertbildung Blobs extrahiert werden?

— krzych

Ich denke, Sie können "Erkennungsfehler" nicht nur für das Bild berechnen. Es muss einen Kontext geben, in dem Sie sagen können, dass die Funktion fehlerhaft ist.

— Libor

Genau aber was für ein Zusammenhang. Wie entwerfe ich einige Tests, um die Richtigkeit der Merkmalserkennung herauszufinden?

— krzych

Wie H & Z in ihrem Buch feststellte: "Dies ist ein Henne-Ei-Problem ..." Wir können nicht sagen, welche Funktionen "gut" und welche "schlecht" sind, ohne sie zuerst zu vergleichen. Es gibt einige Entwicklungen beim Entwerfen von Feature-Deskriptoren, damit diese gut mit größeren Datensätzen übereinstimmen. Wenn Sie die Qualität eines Deskriptors messen, können Sie Merkmale unterscheiden, die wahrscheinlich nicht übereinstimmen.

— Libor

Es muss jedoch eine Methode geben, um die Richtigkeit des gesamten Systems zu bewerten. Ich denke, dass dies für Bildverarbeitungsanwendungen sehr wichtig ist, insbesondere wenn wir über die Elementpositionierung sprechen. Wie ich in Frage sagte, bin ich auch an einigen Möglichkeiten interessiert, diese Richtigkeit zu testen.

— krzych

Dies beantwortet nicht die ganze Frage, sondern befasst sich mit einem Teil der Fragen des OP.

Dies kann nur experimentell durchgeführt werden. Um es zu machen wäre analytisch Informationen verlangen , was der Algorithmus sollte zurückgekehrt. Um dies zu wissen, benötigen Sie einen bekannten, immer korrekten Computer-Vision-Algorithmus zum Vergleich (sowie detaillierte analytische Beschreibungen des Bildes, gegen das getestet wird). Analytische Lösungen erfordern die Kenntnis einer Grundwahrheit, die eher analytisch als von Fall zu Fall von Hand generiert wird. Aber wir haben keine analytische Möglichkeit, eine Grundwahrheit zu generieren - das versuchen wir zu entwickeln.

Da dies nur experimentell möglich ist, sollten Sie sich Google Scholar ansehen. Wenn Sie nach der Lokalisierung von Personen suchen, gibt es viele Dokumente, die der Lokalisierung einer Person oder von Teilen einer Person wie einem Kopf oder Händen gewidmet sind. Der Standort des Autos wird ebenfalls besondere Aufmerksamkeit erhalten. Andere Objekte möchten nur generische Algorithmen.

— John Robertson
quelle

Einige Referenzen könnten diese Antwort verbessern.

— krzych