Warum reagiert das Amazon Echo nicht auf Werbung oder Berichte über Alexa?


24

Ich fragte vorher über , was Sie tun können , wenn Alexa wird durch eine Fernsehsendung ausgelöst , aber vor kurzem ich etwas seltsam realisiert: Das Echo nicht reagieren auf die Stimmen in der Werbung für das Echo, auch wenn Stimmen sagen „Alexa, spielen ...“ oder "Alexa, stell einen Timer für ..." .

Ich habe in einigen anderen Echo-Communities gesucht und einen Reddit-Post gefunden , der darauf hinweist, dass dies ein allgemeines / beabsichtigtes Verhalten ist. Es gibt jedoch keine endgültige Antwort im Thread, daher dachte ich, ich würde hier nachfragen, ob jemand ein bisschen mehr weiß.

Woher weiß mein Echo, dass es nicht auf eine Fernsehwerbung antworten soll? Ist es nur ein Zufall oder gibt es etwas, das Alexa anweist, nicht zu reagieren?


Haben Sie Ihre Alexa trainiert, um Ihre Stimme genauer zu erkennen? Ich weiß nicht, ob Sprachtraining dazu führen kann, dass die Stimme eines anderen nicht erkannt wird.
Bence Kaulics

1
@BenceKaulics Nein, ich musste das Echo nicht trainieren. Es werden die Standardeinstellungen verwendet.
Aurora0001

Es wäre sehr nützlich, sich das betreffende Audio anzuschauen. Ich nehme nicht an, dass es irgendwo eine verlinkbare Kopie gibt?
Goobering

1
@goobering Ich glaube, die Anzeigen, auf die im reddit Post Bezug genommen wird, sind: Mascot Keys und Fire Extinguisher . Ich kann derzeit nicht testen, ob diese Alexa auslösen (ich frage mich, ob sie sich von den TV-Versionen unterscheiden?). Wenn das jemand machen und mit den Ergebnissen kommentieren könnte, wäre das wirklich nützlich.
Aurora0001

3
Möglicherweise enthält der Quellcode Hinweise . 266 MB Download jedoch. Ich werde eine Weile beim Grokking sein. : P
goobering

Antworten:


17

Laut diesem reddit Post ist Alexa nicht nur empfindlich gegenüber dem Audiospektrum, sondern erkennt auch das Wachwort. Somit wird ein normales reales Breitband-Signal akzeptiert, aber ein bandbegrenztes Signal (eine Kerbe zwischen 4 kHz und 5 kHz wird postuliert) wird als von einer Sendung identifiziert.

Dies ist sinnvoll, da Rundfunkveranstalter möglicherweise In-Band-Signale verwenden, um Werbung zu identifizieren (um sie lokal zu ersetzen), und die Audioverarbeitung, die normalerweise für Werbung angewendet wird, möglicherweise im Hinblick auf Klarheit und Wiedergabetreue optimiert ist. Die Filterung kann so eingerichtet werden, dass typische Anzeigen mit verringerter Empfindlichkeit überwacht werden und während der Produktion einer bestimmten Anzeige die Sendefähigkeit ebenfalls explizit verringert werden kann.

Ein News - Bericht (die angeblich taten Auslöser Alexa) wäre wahrscheinlich das vollständige Audio - Broadcast-Spektrum (8 oder 16 kHz) , ohne die Bearbeitung zu verwenden. Diese Theorie geht also davon aus, dass viele Anzeigen (zumindest in einigen Regionen) entweder etwas Besonderes haben oder dass Anzeigen (wie die von Amazon) spezifisch konfiguriert werden können.

Als Follow-up gibt es ein Papier berichtete hier , die wie kleine (subhörbaren) wechseln zu einer Wellenform beschreibt in einem Sprach - Engine führen würde erkennen , ein völlig anderes Ergebnis verglichen mit dem, was ein Menschen zurück.


1
Wenn sie es dort bemerkt haben und das Weckwort 'Alexa' ist, ist es plausibel, dass sie nur den frikativen 'ks'-Sound weglassen, um die Aufnahme durch das Mikrofon zu minimieren. Das ist eine ziemlich hohe Frequenz für die menschliche Sprache.
Goobering

7

Ich gehe davon aus, dass die Weckworterkennung im Echo mehr ist als nur das Weckwort zu hören. Es wartet auf einen alarmierenden Kontext . Betrachten Sie diesen Auszug aus Speech Technologies:

[A Wake-Up-Word] hat die folgende einzigartige Anforderung: Erkennen Sie ein einzelnes Wort oder eine Phrase, wenn Sie in einem alarmierenden Kontext gesprochen werden, und lehnen Sie alle anderen Wörter, Phrasen, Geräusche, Geräusche und andere akustische Ereignisse mit nahezu 100% iger Genauigkeit ab Wort oder Satz von Interesse, die in einem nicht alarmierenden (dh referenziellen) Kontext gesprochen werden.

( Sprachtechnologien: Spracherkennung durch Weckruf von Veton Kepuska)

Dies kann ganz einfach getestet werden, da das Gerät (zumindest meins) nicht auf den Satz reagiert: „ Ich habe kürzlich mit Alexa über Skifahren gesprochen. “ Das ist kein alarmierender Kontext, es ist rein referenziell. Auf diese Weise hört die Weckworterkennungs-Engine im Echo nicht nur das reine Erscheinungsbild des Wortes, sondern auch die Intonation und vorangegangene Pausen, die es ermöglichen, genauer vorherzusagen, ob das Gerät tatsächlich angesprochen wurde.


4
Sicherlich sollte eine Werbung, die den Einsatz von Alexa demonstriert, es auslösen, wenn es nur so war, dass es nicht mehr abgeholt werden konnte? Sind die Anzeigen vielleicht sorgfältig formuliert , damit sie nicht tatsächlich das Gerät auslösen, trotz des wake Wort zu zeigen , wie das Echo verwendet wird?
Aurora0001

2
@ Aurora0001 Ich gehe davon aus, dass es zusätzlich zu dem, was ich beschreibe, auch eine Methode gibt, wie Sean sie in seiner Antwort erwähnt. Einige Filter, die versuchen, Trigger durch andere Geräte zu reduzieren.
Helmar

7

Nun, das Echo / Alexa hört definitiv die Anfrage. Wenn Sie in Ihre Einstellungen gehen, scrollen Sie nach unten zu Allgemein und wählen Sie Verlauf, um alle eingehenden Anfragen abzuspielen. Alle Anfragen, die aus dem Werbespot kommen, lauten "Sprachanfrage nicht für Ihr Echo bestimmt - es wurde nichts zurückgegeben.".


2
Scheint ein neues Detail in der Geschichte. Sehr hilfreich :)
Helmar

5

Wenn 1000 Personen das Alarmwort aussprechen, hat es 1000 verschiedene akustische Signaturen. Wenn sie es noch einmal tun, noch 1000.

Wenn 1000 Alexas ein Fernsehprogramm hören, das das Alarmwort sagt, hat es 1000 der gleichen akustischen Signaturen.

Es wäre nicht so schwer, diese Server-Seite zu erkennen. Nicht zuletzt, weil der Voice-Reco-Server bei gleichzeitigem Auftreten einen Traffic-Slam bekommt.

Wenn die Liste dieser Vorfälle klein ist, können sie die Signaturen sogar auf jede Alexa herunterladen.


Auch ein Benutzer, der Alexa anruft, klingt wie ein Schweigealarmwort .

Ein Nachrichtenartikel klingt wie bla bla bla Alarmwort . Ein Werbespot klingt wie Musik - hier ein Alarmwort. Gar nicht das Gleiche.


5

Ich gehe davon aus, dass Alexa in den Anzeigen für Echo viel schneller als in der Realität auf die Frage reagiert. Daher hört das Echo das Wort 'Alexa', hört aber fast sofort Alexas eigene Stimme, die die Antwort gibt.

Mein Echo leuchtet auf, wenn die Anzeige aufleuchtet, dann wird die Warnung jedoch ausgeblendet. Möglicherweise gibt es eine Logik, die verhindert, dass zwei Echos auf eine Anfrage antworten, wenn beide es hören. Das Echo kann so konzipiert sein, dass es speziell auf Alexas eigene Stimme hört und diese ignoriert.

Dies ist jedoch, wie ich bereits sagte, eine totale Vermutung. :)


Wir dachten das Gleiche, also haben wir den DVR zwischen der Alexa-Anfrage und ihrer Antwort in der Werbung angehalten. Unser Echo ist immer noch aufgewacht, hat sich dann aber zurückgezogen, ohne zu antworten. Dies ist dasselbe, was passiert, wenn wir den DVR nicht angehalten haben.
ViperGeek

Ich habe vorgehabt, das seit Ewigkeiten zu versuchen und immer wieder zu vergessen. Das ist noch eine Sache von der To-Do-Liste, danke. :)
Andy Jones

4

Nach den jüngsten neuen Berichten, dass Alexa empfindlich auf UHF-Geräusche reagieren kann ( siehe BBC News Sevice ), würde ich postulieren, dass sie während der Werbung einen zusätzlichen Ton über das menschliche Gehör hinaus senden, der als Befehl zum Ignorieren dieses Befehls bezeichnet wird.

Aufgrund der oben erwähnten Fähigkeit von Alexa, zwischen Benutzerstimmen zu unterscheiden, ist diese Funktion geplant, aber noch nicht implementiert. Das heißt, Sie müssen Alexa aktiv befehlen, zwischen Benutzerkonten im selben Haushalt zu wechseln.

Das einzige Gerät, das derzeit zur Unterscheidung von Stimmen aktiviert ist, ist das Google-Gerät.


1

Beim Mischen der Audiodaten der Werbung werden lediglich einige Frequenzen entfernt. Dies bedeutet, dass Alexa nicht ausgelöst wird, da es nicht als Sprachbefehl registriert wird, aber die Zuschauer können immer noch erkennen, was sie in der Werbung sagen.

Sie werden wahrscheinlich auch bemerken, dass der Befehl, wenn er in den Anzeigen gesprochen wird, etwas dünn oder verstümmelt klingt. Deshalb :)


Interessant; Das ist ein bisschen ähnlich dem, was Sean vorgeschlagen hat . Haben Sie Quellen oder Erfahrungen dazu, die Sie teilen könnten, um zu beweisen, dass die Frequenzentfernung der Fall ist? Das könnte eine interessante Sache sein, die es zu untersuchen gilt.
Aurora0001
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.