Die Auflösung von Zeit und Frequenz ist ein bekanntes Problem, und es gibt tatsächlich Ansätze, um es zu überwinden. Für Audiosignale umfassen einige der häufig verwendeten Techniken: parametrische Methoden; adaptive Auflösung (Analyse mit verschiedenen Zeit- / Frequenzkonfigurationen und Zusammenfügen der Ergebnisse - Wen X. und M. Sandler, "Zusammengesetztes Spektrogramm unter Verwendung mehrerer Fourier-Transformationen"); Wavelets / Zerlegungen auf übervollständigen Basen; und Verwendung von Phaseninformationen, um den genauen Ort von Frequenzspitzen (IFgram) zu extrahieren.
Es scheint jedoch, dass das von Ihnen gezeigte Diagramm einige dieser Techniken nicht verwendet. Ich vermute also, dass dies nicht das ist, wonach Sie suchen. Auf der horizontalen Achse scheint es ein gewisses "Verschmieren" zu geben (zum Beispiel bei t = 1,2 s), und dies ist ein sicheres Zeichen dafür, dass die Analyse mit einer hohen Überlappung zwischen Blöcken durchgeführt wurde.
In der Tat müssen die Blockdauer und die Anzahl der Analyse-Frames pro Sekunde nicht miteinander verknüpft werden, wenn Sie zulassen, dass sich Frames überlappen. Wenn Sie also einen 40 ms langen Analyserahmen verwenden möchten, muss Ihr Raster nicht wie folgt sein:
Rahmen 1: t = 0 ... t = 40 ms; Rahmen 2: t = 40 ms ... t = 80 ms
Es könnte sehr gut sein:
Rahmen 1: t = 0 ... t = 40 ms; Rahmen 2: t = 10 ms ... t = 50 ms
Diese Überlappung kann die Illusion einer höheren zeitlichen Auflösung erzeugen, ohne die Größe des FFT-Fensters zu stark zu verringern. Beachten Sie, dass dies nur dazu beitragen kann, ein Ereignis auf der Zeitachse genau zu lokalisieren - es hilft nicht, zwei Ereignisse zeitnah zu lösen ... Genau wie das Erhöhen der FFT-Größe beim Ermitteln des Ortes einer Frequenzspitze helfen kann, nicht jedoch bei der Auflösung zweier benachbarter Frequenzspitzen.