Eine Signalverarbeitungstechnik, die Mel-Frequenz Cepstrum , wird häufig verwendet, um Informationen aus einem Musikstück zur Verwendung in einer maschinellen Lernaufgabe zu extrahieren. Diese Methode liefert ein kurzfristiges Leistungsspektrum, und die Koeffizienten werden als Eingabe verwendet.
Beim Entwerfen von Musikabrufsystemen werden solche Koeffizienten als charakteristisch für ein Stück angesehen (offensichtlich nicht unbedingt eindeutig, aber unterscheidend). Gibt es Eigenschaften, die besser zum Lernen mit einem Netzwerk passen? Würden zeitlich veränderliche Eigenschaften wie die Bassprogression des Stücks, das in einem Elman-Netzwerk verwendet wird, effektiver funktionieren?
Welche Merkmale würden einen ausreichend umfangreichen Satz bilden, auf dessen Grundlage eine Klassifizierung stattfinden könnte?