Warum können Menschen Audio in einer Menschenmenge herausgreifen? Was würde ein Roboter brauchen, um dasselbe zu tun?


8

Ich war heute auf einer Robotik-Konferenz und einer der Redner erwähnte, dass Roboter in einer Menschenmenge nicht so gut funktionieren können, weil sie Audio nicht wie eine Person herausgreifen können.

Warum können Menschen Audio so gut herausgreifen? Und was würde ein Roboter brauchen, um dasselbe zu tun?

Ich bin mir der aktiven Geräuschreduzierung (Active Noise Reduction, ANR) wie beim Bose Aviation-Headset bewusst, aber darüber spreche ich nicht. Ich denke über die Fähigkeit nach, alles aufzunehmen, aber nur das zu verarbeiten, was Sie für wichtig halten.

Antworten:


7

Was der Redner auf der Konferenz sagte, war nicht korrekt. Vielleicht meinten sie " unser Roboter kann Audio nicht wie eine Person herausgreifen", aber die Aussage "[Roboter] können Audio nicht herausgreifen wie eine Person" ist falsch.

Hier ist eine unvollständige Liste von Systemen, die die Quelle eines Audiosignals bestimmen und verfolgen können:

Der Begriff, den Sie suchen, ist ein "Phased Array" von Mikrofonen (siehe auch: Matlab Phased Array Toolbox ). Die NASA verwendet phasengesteuerte Arrays, um das Geräusch von sich drehenden Rotorlüfterflügeln zu lokalisieren .


Es ist schon eine Weile her, seit ich an diesem Audiokurs teilgenommen habe, aber ich glaube auch, dass jede Stimme Eigenschaften haben sollte, von denen vernünftigerweise angenommen werden kann, dass sie in einer Menschenmenge einzigartig sind.
Erik Reppen

2
Der Kinect für Windows-Sensor verfügt über ein Mikrofonarray, mit dem Sie bestimmen können, von welchem ​​Player das Audio stammt.
WildCrustacean

Das ist ausgezeichnet. Haben Sie einen Link, wie Sie vom Kinect aus auf diese Informationen zugreifen können?
Ian

+1. Aber kann ein Roboter in Echtzeit Entscheidungen darüber treffen, was wichtig ist, und danach filtern? Es scheint mir, dass Ihre Liste nur Geräusche enthält, die der Roboter im Voraus lernen kann.
Adrian Keister

Bestimmt. Die Technik heißt Beamforming . Angenommen, Sie haben einige filterbare Kriterien für das, was als "wichtig" gilt. Sobald Sie dieses Signal aufgenommen haben, würden Sie seine Bewegung von diesem räumlichen Ort aus verfolgen.
Ian

2

Ich denke, es gibt mindestens drei Dinge:

  1. Filterung, die vom Ort abhängt, von dem der Ton kommt. Unser Stereo-Hören in Kombination mit bestimmten Eigenschaften, wie unsere Ohren aufgebaut sind, hilft uns, Schall zu isolieren, der von einem bestimmten Ort / einer bestimmten Richtung kommt.
  2. Filterung, die von der Frequenz / Amplitude des Audios abhängt.
  3. Die Redundanz im Audio ermöglicht es uns, den Eingang zu rekonstruieren. Wenn mehrere Personen über einander sprechen (oder im Allgemeinen in Gegenwart von Lärm), müssen wir nur einen Bruchteil des Gesagten erfassen (oder manchmal sogar visuell beobachten), um zu wissen, was gesagt wird.

Ich würde denken, dass ein Roboter Menschen auf # 1 und # 2 übertreffen kann. Mit einem Mikrofonarray könnte man denken, man könnte sich effektiv auf einen einzelnen Punkt im Raum konzentrieren und alle anderen Interferenzen beseitigen. Dies kann durch Reflexionen und verschiedene andere Störungen erschwert werden. # 3 ist wahrscheinlich etwas, das für Computer schwieriger zu tun ist.


Das geheime Wort für heute Abend ist stereo hearing. Fragen Sie jeden Menschen, der diese Fähigkeit aus irgendeinem Grund verloren hat. Ein Programm oder sogar ein Roboter mit 2 oder mehr Mikrofonen verfügt über diese Fähigkeit - wenn der Programmierer weiß, wie er mit der Eingabe umgeht.
ott--
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.