Signalverarbeitung speech-recognition

3

Kennt jemand einen Filter, um Nicht-Sprache zu dämpfen? Ich schreibe Spracherkennungssoftware und möchte alles außer menschlicher Sprache herausfiltern. Dazu gehören Hintergrundgeräusche, Geräusche, die von einem beschissenen Mikrofon erzeugt werden, oder sogar Hintergrundmusik. Ich habe bereits einen Filter erster Ordnung implementiert, der die Abnahme des Leistungsspektrums um 6 dB kompensiert, höre …

17 filters audio noise speech-recognition

1

Bestimmen, wie ähnlich Audio der menschlichen Sprache ist

Auf der Suche nach einer Antwort auf dieses Problem habe ich festgestellt, dass dieses Board diese Frage von Stack Overflow gekreuzt hat . Ich suche nach einer Methode zur Bestimmung der Ähnlichkeit zwischen einem Audiosegment und einer menschlichen Stimme, die numerisch ausgedrückt wird. Ich habe ziemlich viel gesucht, aber was …

12 audio algorithms speech-recognition

1

Wie unterscheidet sich die Geräuschreduzierung für die Spracherkennung von der Geräuschreduzierung, die die Sprache für den Menschen „verständlicher“ machen soll?

Diese Frage interessiert mich schon seit einiger Zeit, vor allem, weil ich selbst an der Rauschunterdrückung für ein vorhandenes Spracherkennungssystem arbeite. Die meisten Artikel über Geräuschreduzierungstechniken scheinen sich darauf zu konzentrieren, wie Sprache für Menschen verständlicher gemacht oder vage Begriffe wie "Sprachqualität" verbessert werden können. Ich bin sicher, dass Sie …

10 noise speech-recognition speech-processing noise-cancellation

1

Entwerfen eines Merkmalsvektors zur Unterscheidung zwischen verschiedenen Schallwellenformen

Betrachten Sie die 4 folgenden Wellenformsignale: signal1 = [4.1880 11.5270 55.8612 110.6730 146.2967 145.4113 104.1815 60.1679 14.3949 -53.7558 -72.6384 -88.0250 -98.4607] signal2 = [ -39.6966 44.8127 95.0896 145.4097 144.5878 95.5007 61.0545 47.2886 28.1277 -40.9720 -53.6246 -63.4821 -72.3029 -74.8313 -77.8124] signal3 = [-225.5691 -192.8458 -145.6628 151.0867 172.0412 172.5784 164.2109 160.3817 164.5383 …

10 computer-vision frequency-spectrum autocorrelation speech-recognition

1

Wie unterteilt man Telefonanruf-Audio in Stille / Nicht-Stille?

Mein Problem ist, dass ich die Energie des Hintergrundrauschens nicht kenne, also kann ich die Energie nicht einfach schwellen. Die Verarbeitung erfolgt in Echtzeit und ich habe ungefähr 500 ms Zeit, um mich zu entscheiden. Idealerweise möchte ich ruhige Konsonanten, die als nicht still gelten.

9 audio speech-recognition

2

So implementieren Sie eine gradientenbasierte Hough-Transformation

Ich versuche, die Hough-Transformation für die Kantenerkennung zu verwenden, und möchte Gradientenbilder als Basis verwenden. Was ich bisher das Bild gegeben getan haben , Ivon ihrer Größe [M,N]und ihrer partiellen Ableitungen gx, gyist der Steigungswinkel in jedem Pixel zu berechnen thetas = atan(gy(x,y) ./ gx. Ebenso berechne ich die Gradientengröße …

9 image-processing edge-detection image-processing computer-vision image-registration discrete-signals noise bpsk snr demodulation bpsk multipath synchronization timing image-processing filters algorithms edge-detection sampling demodulation bpsk synchronization timing fft fourier-transform delay audio speech-recognition soft-question discrete-signals discrete-signals autocorrelation frequency computer-vision

3

Woran erkennt Siri, dass ich "Hey Siri" sage?

Ich versuche zu verstehen , wie mein iPhone kann für mich immer wieder hören zu sagen Hey Siri, Alexa, Hey Cortanaoder Okay Googleohne meine Batterie schnell Entleerung nach unten. Ich stellte mir zwei Arten von Algorithmen vor. Eine, die Zeitscheiben wie 10 ms breite Scheiben alle 200 ms aufzeichnet und …

8 sound speech-recognition voice

2

Was bedeutet ein „Vektor“ in einem versteckten Markov-Modell?

Ich weiß, dass ein Hidden Markov Model (HMM) zur Spracherkennung verwendet wird, und verstehe es bis zu einem gewissen Grad. Was ich jedoch nicht weiß, ist, wie Eingabe (Sprache) in einen Vektor "transformiert" wird, der später in HMM verwendet wird. Wie erhält man einen Vektor von einer Soundeingabe? Ist dieser …

8 speech-recognition

1

Was ist die korrekte grafische Interpretation einer Reihe von MFCC-Vektoren?

Ich studiere Spracherkennung, insbesondere die Verwendung von MFCC zur Merkmalsextraktion. Alle Beispiele, die ich online gefunden habe, tendieren dazu, eine Reihe von MFCC grafisch darzustellen, die aus einer bestimmten Äußerung wie folgt extrahiert wurden (Grafik, die ich mit der Software erstellt habe, die ich schreibe): Wie Sie in der obigen …

7 speech-recognition mfcc visualization feature-extraction

1

Wie entspricht diese Gleichung der Glättung?

Bitte helfen Sie mir, die Glättung von Daten zu verstehen. Dies ist eine Fortsetzung meiner vorherigen Frage, die hier veröffentlicht wurde . Besonders die Top-Antwort von Junuxx, wo er einen Weg zur Glättung einer Funktion sagtf( x )f(x)f(x) ist: f′[t]=0.1f[t−1]+0.8f[t]+0.1f[t+1]f′[t]=0.1f[t−1]+0.8f[t]+0.1f[t+1] f'[t] = 0.1 f[t-1] + 0.8 f[t] + 0.1 f[t+1] …

7 speech-recognition smoothing speech

Als «speech-recognition» getaggte Fragen