Mustererkennung für zeitliche Daten

9

Ich versuche, nicht sprachliche Geräusche zu erkennen und zu klassifizieren. Derzeit verwende ich eine Reihe von sich bewegenden überlappenden Leistungsspektren aus Trainingsgeräuschen als die Funktionen, nach denen ich suche.

Wenn ich eine Analyse durchführe, berechne ich nur die gleiche Anzahl überlappender Spektren, damit die Anzahl der Merkmale gleich ist. Im Moment ist die Leistung nicht sehr gut, sie kann nur Stille gegen Nicht-Stille erkennen.

Welche Techniken gibt es für diese Art der Signalerkennung? Eines meiner Probleme ist, dass für Sounds unterschiedlicher Länge im Zeitbereich unterschiedliche Längen von Merkmalsvektoren resultieren würden, sodass ich nicht denselben Klassifikator verwenden kann. Ich bleibe dabei.

audio

— Manschette
quelle

3

Versuchen Sie, Sprache im Vergleich zu Nicht-Sprache zu erkennen, oder gibt es Klassen von Nicht-Sprachlauten, von denen Sie unterscheiden möchten? Ich bin nicht klar aus Ihrer Frage.

Ich denke, ein anständiger erster Ansatz wäre, Ihr Signal in Frames zu blockieren und die Mel-Frequenz-Cepstral-Koeffizienten (MFCCs) sowie die Delta-MFCCs (Unterschiede zwischen den MFCCs benachbarter Frames) und Delta-Delta-MFCCs (Unterschiede zwischen MFCCs) zu berechnen in Frames, die zwei Frames voneinander entfernt sind). Dies ist nicht der einzige Weg, dies zu tun, aber ohne genauere Kenntnisse der Problemdomäne ist dies wahrscheinlich ein guter Anfang.

Nur googeln sollte Ihnen eine gute Referenz zur Berechnung der MFCCs geben, wenn Sie nicht bereits mit ihnen vertraut sind. Grundsätzlich nehmen Sie die DFT, nehmen die Größen, berechnen die Energien in dreieckigen Fenstern, die dem menschlichen Gehör entsprechen, nehmen die DCT dieser Koeffizienten, im Wesentlichen als Kompressionsschritt, und verwerfen dann die Koeffizienten höherer Ordnung, wobei normalerweise nur etwa die ersten zwölf Koeffizienten verwendet werden . Ich habe in diesem Beitrag eine Erklärung zur Bedeutung des DCT-Schritts: Wie interpretiere ich den DCT-Schritt im MFCC-Extraktionsprozess?

Sie können diese Koeffizienten dann beispielsweise als Merkmale für eine SVM verwenden.

— Schnarf
quelle

2

Ich denke, Sie beschäftigen sich im Allgemeinen mit einem Problem der Spracherkennung , das es schon immer gegeben hat, und es gibt unzählige Methoden, um dies zu tun. Es sieht so aus, als ob in diesem Artikel beispielsweise auch Spektraltechniken verwendet werden. Vielleicht möchten Sie dort beginnen. Eine gute alte Google-Suche liefert viele Ergebnisse mit Links zu Artikeln und Artikeln.

Im Allgemeinen gibt es zwei etwas unterschiedliche Ansätze zur Spracherkennung. Einer lässt die Annahme eines guten Sprach-Rausch-Verhältnisses zu (Stimme ist lauter als Umgebungsgeräusche, Musik, andere irrelevante Inhalte), und der andere trifft keine solchen Annahmen und versucht, die Sprachpräsenz in sehr lauten Signalen zu identifizieren (eingegrabene Sprache) Lärm). Je nachdem, welches Sie versuchen, werden Sie sich am Ende sehr unterschiedliche Papiere ansehen. Wenn Sie Ihre Frage ein wenig klären und die Arten von Sprachsignalen, mit denen Sie arbeiten, näher erläutern, kann diese Website möglicherweise hilfreicher sein.

— Phonon
quelle