Liste der möglichen Bildfunktionen für den inhaltsbasierten Abruf von Bildern


15

Ich versuche, eine Liste möglicher Bildmerkmale wie Farbe, orientierte Kanten usw. zu finden, um deren Verwendbarkeit zu messen, wenn in Bildern gleiche / ähnliche Objekte gefunden werden. Kennt jemand eine solche Liste oder zumindest einige Features?


Dies ist nicht im Thema, aber kann CBIR eine Funktion aus dem Open Image-Dataset extrahieren? Ist es möglich, die Funktion eines Bildes zu extrahieren, obwohl das Bild nicht auf der lokalen Festplatte gespeichert ist?
Quix0te

Antworten:


25

Das Feld selbst ist zu groß. Ich bezweifle, dass Sie hier eine vollständige Liste haben können. Allerdings MPEG-7 ist einer der primären Anstrengungen in diesem Bereich zu standardisieren. Was hier enthalten ist, ist also nicht universell - sondern zumindest die primärste.

Hier sind einige der wichtigsten Funktionen, die in MPEG7 identifiziert wurden (ich kann wirklich nur über visuelle Deskriptoren sprechen, andere sehen dies nicht in vollem Umfang).

Es gibt 4 Kategorien von visuellen Deskriptoren:

1. Farbdeskriptoren das beinhaltet:
Dominant Farbe,
Farbe Layout ( im Wesentlichen Grundfarbe auf Block- für -Block - Basis)
Scalable Farbe ( im Wesentlichen Farbe Histogramm),
Color Structure ( im Wesentlichen lokalen Farb Histogramm),
und Farbräume , um die Dinge kompatibel.

2. Texture Descriptors (siehe auch dies ), einschließlich:
Texture Browsing Descriptor - definiert Granularität / Grobheit, Regelmäßigkeit und Richtung. Homogener Texturdeskriptor - basiert auf der Gabor-Filterbank. und
Kantenhistogramm

3. Formdeskriptoren , die umfasst:
Region basierend Deskriptoren skalare Attribute der Form unter Berücksichtigung - wie Fläche, ecentricities usw.
Contour beruhte , die Erfassungen tatsächliche charakteristische Formmerkmale und
3D - Deskriptoren

4. Bewegungsbeschreibungen für die
Videokamera-Bewegung
(Bewegungsparameter der 3D -Kamera) Bewegungsbahn (von Objekten in der Szene) [z. B. durch Verfolgungsalgorithmen extrahiert] Parametrische Bewegung (z. B. Bewegungsvektoren, die eine Beschreibung der Bewegung der Szene ermöglichen. Dies ist jedoch möglich komplexere Modelle für verschiedene Objekte).
Aktivität, die eher ein semantischer Deskriptor ist.


MPEG 7 definiert nicht "Wie diese extrahiert werden" - es definiert nur, was sie bedeuten und wie sie dargestellt / gespeichert werden. Es gibt also Untersuchungen darüber, wie diese extrahiert und verwendet werden können.

Hier ist ein weiteres gutes Papier , das einen Einblick in dieses Thema gibt.

Aber ja, viele dieser Funktionen sind eher grundlegend und werden möglicherweise durch gründlichere Untersuchungen komplexere Funktionen hervorbringen.



6

Es gibt auch ein Buch, das eine Reihe von Artikeln zu diesem Thema bündelt. Es nennt sich Prinzipien der visuellen Informationsgewinnung .


Googleing über die Bücher zeigt nicht viele positive Bewertungen. Eigentlich mehr Beschwerden als positive. Denken Sie immer noch, dass es eine gute Referenz ist, und wenn ja, könnten Sie uns vielleicht sagen, wann es für Sie nützlich war? :)
Penelope

Der Hauptgrund dafür ist, dass ich es nicht oft benutzt habe, aber mein Lehrer hat es empfohlen (und ich schätze seine Meinung). Googleing darüber zeigt, dass es wirklich ein Bündel von Papieren ist, und nicht wirklich ein Buch. Es zeigt auch sein ziemlich altes, aber dennoch eines der wenigen Bücher zum Thema. Daher halte ich meine Antwort nach wie vor für angemessen.
Geerten

3

@ Dipan Mehta behandelte die Funktionsbeschreibungen , die verwendet werden können. Lassen Sie mich nun versuchen, die andere Seite der Medaille abzudecken, indem ich einige Methoden zur Merkmalserkennung erwähne , mit denen Merkmale extrahiert werden, die für CBIR gut sind .

Meine Referenz für meine CBIR- Forschung waren die Arbeiten von Sivic, Zisserman und Nister, Stewenius . Es gibt aktuellere Artikel dieser Autoren, aber diese präsentieren alle relevanten Ideen.

Sie argumentieren, dass zur Implementierung einer effizienten CBIR- Methode Merkmale komplementärer Eigenschaften verwendet werden sollten:

  • Form angepasst Regionen - dazu neigenan zentriert werden Ecke ähnlichen Funktionen

    Beispiele: Harris Ecken, Multi-Scale Harris, DoG (Unterschied der Gaußschen - aber reagiert auch auf Kanten!)

  • Maximal stabile Regionen - Neigen dazu, sich auf blobartige Merkmale zu konzentrieren

    Beispiele: MSER (Maximally Stable Extermal Regions), DoG

Überraschenderweise bietet Wikipedia auch eine gute Klassifizierung von Merkmalstypen (Detektortypen), wobei die Art der von ihnen erkannten Interessenbereiche für die meisten der derzeit häufig verwendeten Merkmale angegeben wird:

  • Kantendetektoren
  • Eckendetektoren
  • Blob-Detektoren
  • Firstdetektoren

Die aktuellsten Artikel, die ich gelesen habe, schwören, dass SIFT (Scale-Invariant Feature Transform) Deskriptoren überragend und robust genug sind, um sie in Kombination mit ausgewählten Feature-Detektoren zu verwenden. Referenzen beinhalten:

  • bereits bereitgestellte Links
  • Mikolajczyk, Schmid befasst sich mit dem Vergleich lokaler Deskriptoren
  • Dahl wertet Detektor-Deskriptor- Kombinationen aus

Hinweis! dass diese Papiere sich nicht ausschließlich mit CBIR befassen, sondern als Referenzen in CBIR verwendet werden Werken verwendet werden.

Schließlich ist es Würze zu erwähnen , dass eine erfolgreiche CBIR Methoden hängen nicht nur von Merkmalsdetektoren und Deskriptoren verwendet, aber auch nach :

  • eine effiziente Suchstruktur (Quantisierung visueller Merkmale)
  • Möglichkeit zum Erstellen von Bilddeskriptoren - entweder basierend auf den gemeinsamen visuellen Merkmalen (lokale Deskriptoren) oder durch Vergleichen globaler Bilddeskriptoren (dies ist eine sehr neue Idee, daher derzeit keine Referenzen)
  • Abstandsmaß zwischen Bilddeskriptoren

Außerdem habe ich bereits einige Fragen zu CBIR in Bezug auf DSP und Stackoverflow beantwortet . Beide sind mit Referenzen und Erläuterungen versehen, und ich denke, dass sie relevant sein könnten. Vielleicht möchten Sie einen Blick darauf werfen:

  • DSP: 1
  • Stapelüberlauf: 1 , 2
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.