Welches mathematische Audiomodell kann die Tonhöhenverschiebung einzelner Noten in (timbral komplexer) Polyphonie ermöglichen?

24

Meine Frage ist: Welches mathematische Modell des polyphonen Klangs kann das Ändern (dh die Tonhöhenverschiebung) einzelner Musiknoten in einer einkanaligen Audioaufnahme mit mehreren Stimmen eines polyphonen akustischen Musikinstruments ermöglichen? Mit "Ändern von Noten in polyphonen Audiodaten" meine ich, dass Sie Sound mit der sogenannten " Direct Note Access " -Funktion in der Melodyne-Software von Celeony bearbeiten.

Wie Melodyne laut Wikipedia das Audiosignal einer einzeiligen Melodie modelliert, die auf einem akustischen (und damit timbral komplexen) Musikinstrument gespielt wird, beschreibt Henning Thielemann in seiner Arbeit mit dem Titel " Phase und Zeit in monophonen Klängen entwirren ". Ich kann keinen Hinweis auf Modelle von Audiosignalen mehrstimmiger Musikinstrumente finden; Laut einem Youtube-Interview von Peter Neubacker (im Folgenden transkribiert) erfordert Melodynes Feature für die Bearbeitung von polyphonem Audio einen anderen Ansatz als den von Thielemann beschriebenen.

Ein Hinweis aus einem anderen YouTube-Clip ist, dass Neubackers Modell besser mit der Audioaufnahme einer Art von Instrument (dh nur Klavier, nur Gitarre, nur Streicher, nur Bläser usw.) funktioniert. Ein weiterer Hinweis ist ein weiterer Clip , der die Möglichkeit zeigt, nicht nur die Tonhöhe einer Note zu verschieben, sondern auch deren (Start- und End-) Timing.

Unten finden Sie eine Abschrift eines Youtube-Videos, in dem erwähnt wurde, dass „polyphone Materialien einen anderen Ansatz erfordern“ (falls Sie ab 22:00 Uhr keine Zeit mehr haben, sie anzusehen).

Die Frage, aus der Melodyne hervorging: Wie kann ich aus einer solchen dreidimensionalen Form einen Klang gewinnen [mit dem Stein in der Hand gestikulieren]? Auf welche Weise kann der Schall dann von seiner Abhängigkeit von einer kontinuierlichen Zeit befreit werden? Diese Skulptur ist eigentlich das, was daraus hervorgegangen ist. Es ist ein Stück Plastik. Dies wurde direkt von Musikdaten abgeleitet. Dieses Objekt ist [eine Note auf Laute zupfen] diese Note. Dies wird am besten von links nach rechts dargestellt. Die Zeit läuft in diese Richtung [von links nach rechts]. Und das ist die Amplitude [mit dem Finger gegen den Daumen groß und klein gestikulieren]. Wenn ich ihn drehe, repräsentiert er ... die Klangfarbe dieses Klangs zu einem bestimmten Zeitpunkt. Hier sieht man sehr deutlich eine Struktur [die auf den Querschnitt am unteren Rand der Skulptur zeigt], die etwas dreieckig ist. das ist, weil in diesem Ton,

Da es Melodyne noch nicht gab und ich einfach mit der Übersetzung des Klangs in diese Form experimentierte, arbeitete ich fast ein Jahr lang mit diesem einen Klang. ... Ich kenne diesen Klang von innen und außen und auswendig. Dies ist auch eine gute Illustration des lokalen Klangs. Ich kann nicht nur den Ton wiedergeben [Mausklick], sondern auch den Ton eines beliebigen Punktes eingeben und so langsam oder schnell durchlaufen, wie ich möchte. Ich kann sogar im Geräusch verweilen oder mich vorwärts und rückwärts bewegen. Wenn ich also eine Stelle hier untersuche, gehe ich darum herum. ... Vor zehn Jahren war es neu.

Kürzlich wurde DNA (Direct Note Access) hinzugefügt. Damit kann ich auch polyphone Musik bearbeiten. Mit anderen Worten, ich kann einzelne Noten, die gleichzeitig klingen, wie zum Beispiel eine Gitarrenaufnahme, bearbeiten. Wenn ich jetzt einen kleinen Akkord spiele [Auswahl von Poly -> Separate Notes auf dem Bildschirm], sehen wir hier die 3 Noten, die ich gerade als separate Entities gespielt habe. Hören wir noch einmal zu [Computer spielt Mollakkord]. Und jetzt, als würde ich meinen Finger auf einen höheren Bund bewegen, kann ich diese eine Note anheben [eine Note auf dem Bildschirm nach oben ziehen; Computer spielt Dur-Akkord]. Für das aufgeteilte Audio kann ich diese eine Note isolieren und sie nach Belieben auf eine beliebige Tonhöhe nach oben oder unten verschieben.

Warum war es bisher niemandem möglich, auf diese Weise einzelne Töne innerhalb eines komplexen Materials zu isolieren? Ich weiß es ehrlich gesagt nicht. In der Wissenschaft besteht die natürliche Tendenz darin, mit etwas Einfachem, zum Beispiel einer Sinuswelle, oder einzelnen Noten zu beginnen und diese zuerst zu analysieren, um dann herauszufinden, wann das Material komplexer wird oder in seiner Gesamtheit behandelt werden muss, dass das System funktioniert nicht Mein Ansatz ist anders. Eigentlich beginne ich mit komplexen Signalen, und nur wenn ich etwas im Detail untersuchen möchte, greife ich auf einfachere zurück, aber zuerst muss ich einen Gesamteindruck davon haben, was tatsächlich in der Realität passiert.

Liegt das Geheimnis vielleicht in dieser Rolle? Heheh, das ist eigentlich eine Klorolle. Die Frage, die ursprünglich vom Stein aufgeworfen wurde, war, wie ich einen gegebenen Klang in eine dreidimensionale Form übersetzen kann. Hier habe ich die einzelnen Abtastwerte des Klangs, die hier durch eins, zwei, drei usw. angegeben sind, spiralförmig angeordnet. Und es stellt sich heraus, dass beim Interpolieren zwischen den Punkten [Gestikulieren über die Spirale] eine Landschaft entsteht, die auch die einzelnen Querschnitte im Klang darstellt [Gestikulieren über Querschnitte der Skulptur].

Wie alt ist die Rolle? 12 Jahre. Diese Idee ist also die Quelle von Melodyne, von allem, was wir heute gesehen haben ...? Ja, aber diese Art, den Sound aufzurollen, wäre für polyphone Materialien nicht mehr von Nutzen, was einen anderen Ansatz erfordert.

frequency

— user1217
quelle

Keine Zeit, aber vielleicht möchten Sie einige Arbeiten von Bill Sethares über Consonance lesen . Ich werde versuchen, Ihren Beitrag zu verdauen und in den nächsten Tagen ausführlicher zu antworten.

— Peter K.

Ich bin mir nicht sicher, was die Frage ist. Wenn ich einzelne Noten isoliere und den Klang " aufwickle", überlege

— endolith

12

TL; DR? Google Scholar für harmonische Teiltrennung .

Ein guter Ausgangspunkt wären sinusförmige Modellierungstechniken, die das Signal in Sinus- und Rauschkomponenten (deterministisch und stochastisch) aufteilen. Die deterministische Komponente aus Sinus kann überzeugend resynthetisiert werden:

http://mtg.upf.edu/files/projectsweb/sms-piano-original.wav

http://mtg.upf.edu/files/projectsweb/sms-piano-deterministic.wav

Die Sinuskurven werden vom Signal abgezogen und der verrauschte / stochastische Anteil bleibt erhalten.

http://mtg.upf.edu/files/projectsweb/sms-piano-stochastic.wav

Der stochastische Teil wird synthetisiert, indem Rauschen durch ein Rauschformungsfilter geleitet wird. Einige andere haben dies auf ein Sinus + Rauschen + Transienten-Modell ausgeweitet, das dabei hilft, transiente stochastische Merkmale bei der Zeitdehnung beizubehalten.

https://ccrma.stanford.edu/~jos/sasp/Sines_Noise_Modeling.html

http://mtg.upf.edu/technologies/sms

Sobald Sie die sinusförmigen Parameter eines Signals haben, können Sie die Sinuskurven überlappender Noten trennen, indem Sie nach harmonischen Verhältnissen suchen und nach Einsetzen usw. gruppieren. Eine teilweise Verfolgung führt in Google Scholar zu vielen Ergebnissen.

http://recherche.ircam.fr/equipes/analyse-synthese/lagrange/research/papers/lagrangeIcassp05.pdf

http://dream.cs.bath.ac.uk/software/sndan/mqan.html

Versteckte Markov-Modelle , Polynome und Macaulay-Quatieri sind einige der Methoden. Ich bin verblüfft darüber, die stochastischen Reste in zwei Noten zu teilen. Ich weiß nicht, wie Melodyne das anspricht.

— Matt M.
quelle

5

Der in der Melodie verwendete Ansatz erfordert zwei separate Frequenzbereichsoperationen. Erstens werden polyphone Transkriptionstechniken verwendet, um Frequenzkomponenten (von einer Standardfrequenztransformation) von polyphonen Audiodaten in Notenaktivierungen zu gruppieren. Mit anderen Worten, gruppieren Sie harmonische Teilmengen nach den wahrscheinlichsten Notenaktivierungen. Referenzen und mathematische Modelle finden Sie in meiner Antwort auf den Beitrag "Inverse polyphone Akkorderkennung" in diesem Forum.

Die zweite Operation ist die der Frequenzdomänen-Tonhöhenverschiebung der oben extrahierten harmonischen Teilmengen. Ich bin nicht sicher, aber ich würde fast garantieren, dass Melodyne einen Phasen-Vocoder-Ansatz verwendet, um dies zu erreichen. Mit dieser Technik können Sie auch Zeitdehnungen durchführen . Wir verwenden ähnliche Techniken in Riffstation und sie funktionieren ziemlich gut.

— Dan Barry
quelle

3

Eine Möglichkeit könnte die Analyse / Resynthese unter Verwendung eines statistischen Mustervergleichsansatzes sein. Wenn Sie den Mix der beteiligten Instrumente kennen oder vernünftigerweise erraten können und Vorlagen (einschließlich anfänglicher Transienten, Spektrum und spektraler Entwicklung usw.) für die Instrumentenklänge für alle erwarteten Noten haben, können Sie versuchen, eine große Anzahl von vernünftigen Akkorden statistisch abzugleichen Kombinationen unter Verwendung der Schablonentonmuster, um die wahrscheinlichste (n) polyphone (n) Kombination (en) abzuschätzen. Dies wäre sehr wahrscheinlich eine sehr rechenintensive Suche nach globalen Minima, bei der verschiedene "AI" -ähnliche Suchtechniken nützlich sein könnten. Sie könnten dann die verschiedenen individuellen Akkordwahrscheinlichkeiten nehmen und dann Entscheidungstheorien verwenden, um die wahrscheinlichsten polyphonen Sequenzen rechtzeitig auszuwählen.

Nehmen Sie dann die geschätzten Noten auf und synthetisieren Sie sie mit der von Ihnen gewählten Tonhöhe und Dauer neu.

— hotpaw2
quelle