Was ist die maximale Verzögerung für die Audiowiedergabe bei einem bestimmten Ereignis in einem Spiel, die der Player dem Ereignis ordnungsgemäß zuordnet (und die Verzögerung nicht wahrnimmt)?
Was ist die maximale Verzögerung für die Audiowiedergabe bei einem bestimmten Ereignis in einem Spiel, die der Player dem Ereignis ordnungsgemäß zuordnet (und die Verzögerung nicht wahrnimmt)?
Antworten:
Das folgende Ergebnis wird für die Lippensynchronisation berechnet, die als "der auffälligste A / V-Synchronisationsfehler" eingestuft wird .
Wikipedia sagt
Für Fernsehanwendungen sollte Audio dem Video um nicht mehr als 15 Millisekunden und dem Video um nicht mehr als 45 Millisekunden nacheilen. Für einen Film wird angenommen, dass eine akzeptable Lippensynchronisation in keiner Richtung länger als 22 Millisekunden ist.
Das Media and Acoustics Perception Lab sagt
Die Ergebnisse des Experiments ergaben, dass der durchschnittliche Audio-Leading-Schwellenwert für die A / V-Sync-Erkennung 185,19 ms betrug, mit einer Standardabweichung von 42,32 ms
Der ATSC sagt
Auf den ersten Blick wirkt es locker: +90 ms bis -185 ms als „Fenster der Akzeptanz“
und
- Nicht erkennbar von -100 ms bis +25 ms
- Erkennbar bei -125 ms & +45 ms
- Wird bei -185 ms & +90 ms inakzeptabel
(- Sound verzögert, + Sound erweitert)
Schlussfolgern
Die Ergebnisse sind nicht so weit voneinander entfernt. Es scheint, dass die maximal zulässige Verzögerung bei etwa 150 ms liegt, was 9 Bildern bei 60 Bildern pro Sekunde entspricht.
Das Gefühl, dass beispielsweise eine Explosion, die Sie sehen und hören, ein einzelnes Ereignis ist, hat die Toleranzen, die in anderen Antworten beschrieben sind - nicht mehr als ~ 50 ms; Einige Leute sind möglicherweise empfindlicher (z. B. Musiker), daher würde ich vorschlagen, auf 30 ms oder nicht mehr als 2 Frames bei 60 fps zu zielen.
Ich glaube, dass die wahrgenommene Distanz diese Toleranzen beeinflussen sollte. Die Menschen erwarten, dass weit entfernte Geräusche leicht verzögert werden, da sie im wirklichen Leben um ungefähr 1 ms pro Fuß Entfernung hinter der Sicht liegen. Eine Explosion auf einer verkleinerten RTS-Karte kann daher eine größere Toleranz für Tonverzögerungen aufweisen, als wenn der Spieler seine eigene Waffe mit einem FPS abfeuert.
Spezielle Fälle, wie das richtige Gefühl für ein Musik- / Rhythmusspiel, erfordern möglicherweise viel engere Toleranzen von 15 bis 20 ms oder sogar weniger - zum Beispiel, wenn der Spieler beide "Eingabeaktionen" hört, z Kunststoffinstrument und auch ein Sound, der von Ihrem System für dasselbe Ereignis erzeugt wird. Bei einer Verzögerung von 50 ms werden die Sounds "original" und "gespielt" komisch gemischt.
Denken Sie außerdem an die Verzögerung zwischen dem Start der Audiodatei und dem "Ereignis" in dieser Audiodatei. In vielen Audioclips ist das "Ereignis" nicht direkt am Rande, es kann ein Blitzgeräusch auftreten Streik, bei dem der "Streik" 200 ms nach dem Beginn stattfindet, was für alle offensichtlich ist, und so gut wie alle Sounddateien, selbst ein Schlagzeug-Hit, werden eine gewisse Verzögerung haben.
Sehen und Hören sind in der menschlichen Wahrnehmung tief verbunden, und wenn einer von ihnen relativ zum anderen stottert, ist dies wahrnehmbar. Es ist nicht in Ordnung, wenn die meiste Zeit sehr schnell ist, aber gelegentlich gibt es eine Verzögerung von 0,2 Sekunden, während etwas geladen wird - die Leute werden solche Situationen bemerken. Aus diesem Grund wird Audio häufig in einem separaten Thread ausgeführt, der von den anderen Aktivitäten isoliert ist, und es werden nur schnelle Benachrichtigungen darüber angezeigt, welche vorinstallierten Clips abgespielt werden sollen.
Jede Situation, in der ein Spieler den Sound verursacht (Musikspiele, Pistolen in FPS), benötigt eine sehr geringe Verzögerung, da der Spieler einen Impuls gesendet hat, um dies in diesem Moment zu ermöglichen von sehr kleinen Verzögerungen. Toningenieure ärgern sich über Aufnahmeverzögerungen unter 5 msec und ruinieren den "Groove"
Das Journal der American Academy of Audiology gibt an, dass Menschen (nicht nur Musiker), die verzögert auf ihre eigene Stimme hören, Verzögerungen von nur 3 ms bemerken und eine Verzögerung von mehr als 10 ms in 90% der Fälle zu beanstanden war.
Menschen nutzen die Zeitverzögerung zwischen ihren Ohren für Richtungsinformationen und müssen daher in der Lage sein, Informationen aus Verzögerungen unter 1 ms zu verarbeiten und zu extrahieren
Die oben angegebenen 185.19 ms sind irrelevant, da sie sich auf einen führenden Klangfehler beziehen und auf das, was die Leute akzeptabel fanden, wenn sie passiv einen Film sahen und sich nicht aktiv an einem Spiel beteiligten.
Die hier akzeptierte Antwort behandelt hauptsächlich die Wahrnehmung der Audiosynchronisation beim passiven Anschauen von Videos. In diesen Fällen kann das Publikum nur dann genau festlegen, wann der Ton abgespielt werden soll, wenn es sich um verräterische Zeichen im Video handelt. Dies bedeutet, dass sie den Klang nur begrenzt vorwegnehmen können.
Es gibt zwei wichtige Fälle in Spielen, in denen diese Annahme mit geringer Erwartung nicht zutrifft:
Wenn der Player selbst den Ton verursacht hat (wie SamB betont), wissen sie von dem Moment an, an dem sie beabsichtigen, die Taste zu drücken, genau, wann sie den Ton erwarten.
Wenn der Sound bei einem periodischen Beat landen soll , z. B. bei Musikspielen oder mit einem tickenden Timer / Zähler, kann der Spieler mit diesem Rhythmus den nächsten Sound vorhersehen und feststellen, wenn die Zeit abgelaufen ist.
In diesem Vortrag von GDC 2013 argumentiert Mathieu Pavageau, dass Spieler Unterschiede in der Synchronisationspräzision oberhalb von etwa 5 ms wahrnehmen können , viel weniger verzeihend als die Beispiele aus der Lippensynchronisation vermuten lassen. Lesen Sie die Abschnitte "Beispiele zur Zeitwahrnehmung" und "Beispiel für Ubisoft-Spiele", um sich selbst davon zu überzeugen. Sie können hören, dass das Rayman Origins-Menü nicht per se "verzögert" klingt, wenn es innerhalb von 16 ms synchronisiert wird (Videorahmen), aber wenn es innerhalb von 5 ms synchronisiert wird, klingt es merklich besser und enger.
Pavageau empfiehlt die Verwendung eines Low-Level-Audio-Callbacks, um diese Art von Subframe-Präzision zu erzielen, wenn Sie ein straffes rhythmisches Gameplay dieser Art wünschen.
Bei Spielen, bei denen eine Person auf akustische Signale reagieren muss, wird jede Millisekunde, um die der Ton verzögert wird, die Reaktion der Person ebenfalls verzögert. Jemand, der nur einen Film oder eine Zwischensequenz ansieht, bemerkt möglicherweise nicht zu viel, wenn Audio und Video nicht genau synchron sind, aber es ist oft wichtig und manchmal kritisch, dass Audio mit dem synchron ist, was der Player tun soll .
Theoretisch kann alles über 50 ms wahrnehmbar sein, wenn es um die Zuordnung zu Bildern geht. Bei 25 ms können Sie einen Ton und seine Verzögerung als zwei getrennte Töne hören. Ich würde also empfehlen, dass Sie unter 50 ms bleiben und wenn Sie kann sogar bei etwas von 5 ms bis 15 ms bleiben, es wäre wirklich schön.
Ich hoffe, dies wird dir helfen!