Ich versuche, Features aus einer Sounddatei zu extrahieren und den Sound einer bestimmten Kategorie zuzuordnen (z. B. Hunderinde, Fahrzeugmotor usw.). Ich möchte Klarheit über die folgenden Dinge:
1) Ist das überhaupt machbar? Es gibt Programme, die Sprache erkennen und zwischen verschiedenen Arten von Hunderinde unterscheiden können. Aber ist es möglich, ein Programm zu haben, das ein Klangbeispiel empfangen und einfach sagen kann, um was für einen Klang es sich handelt? (Angenommen, es gibt eine Datenbank mit einer Vielzahl von Hörbeispielen, auf die verwiesen werden kann.) Die eingegebenen Klangbeispiele können etwas laut sein (Mikrofoneingang).
2) Ich gehe davon aus, dass der erste Schritt die Extraktion von Audio-Features ist. In diesem Artikel wird vorgeschlagen, MFCCs zu extrahieren und sie einem Algorithmus für maschinelles Lernen zuzuführen. Ist MFCC genug? Gibt es noch andere Funktionen, die normalerweise zur Klassifizierung des Klangs verwendet werden?
Vielen Dank für Ihre Zeit.