Spracherkennung ist der Prozess der Umwandlung des gesprochenen Wortes in Text, normalerweise ohne Rücksicht auf einen bestimmten Sprecher (der üblicherweise als "Spracherkennung" bezeichnet wird).
Kennt jemand einen Filter, um Nicht-Sprache zu dämpfen? Ich schreibe Spracherkennungssoftware und möchte alles außer menschlicher Sprache herausfiltern. Dazu gehören Hintergrundgeräusche, Geräusche, die von einem beschissenen Mikrofon erzeugt werden, oder sogar Hintergrundmusik. Ich habe bereits einen Filter erster Ordnung implementiert, der die Abnahme des Leistungsspektrums um 6 dB kompensiert, höre …
Auf der Suche nach einer Antwort auf dieses Problem habe ich festgestellt, dass dieses Board diese Frage von Stack Overflow gekreuzt hat . Ich suche nach einer Methode zur Bestimmung der Ähnlichkeit zwischen einem Audiosegment und einer menschlichen Stimme, die numerisch ausgedrückt wird. Ich habe ziemlich viel gesucht, aber was …
Diese Frage interessiert mich schon seit einiger Zeit, vor allem, weil ich selbst an der Rauschunterdrückung für ein vorhandenes Spracherkennungssystem arbeite. Die meisten Artikel über Geräuschreduzierungstechniken scheinen sich darauf zu konzentrieren, wie Sprache für Menschen verständlicher gemacht oder vage Begriffe wie "Sprachqualität" verbessert werden können. Ich bin sicher, dass Sie …
Mein Problem ist, dass ich die Energie des Hintergrundrauschens nicht kenne, also kann ich die Energie nicht einfach schwellen. Die Verarbeitung erfolgt in Echtzeit und ich habe ungefähr 500 ms Zeit, um mich zu entscheiden. Idealerweise möchte ich ruhige Konsonanten, die als nicht still gelten.
Ich versuche, die Hough-Transformation für die Kantenerkennung zu verwenden, und möchte Gradientenbilder als Basis verwenden. Was ich bisher das Bild gegeben getan haben , Ivon ihrer Größe [M,N]und ihrer partiellen Ableitungen gx, gyist der Steigungswinkel in jedem Pixel zu berechnen thetas = atan(gy(x,y) ./ gx. Ebenso berechne ich die Gradientengröße …
Ich versuche zu verstehen , wie mein iPhone kann für mich immer wieder hören zu sagen Hey Siri, Alexa, Hey Cortanaoder Okay Googleohne meine Batterie schnell Entleerung nach unten. Ich stellte mir zwei Arten von Algorithmen vor. Eine, die Zeitscheiben wie 10 ms breite Scheiben alle 200 ms aufzeichnet und …
Ich weiß, dass ein Hidden Markov Model (HMM) zur Spracherkennung verwendet wird, und verstehe es bis zu einem gewissen Grad. Was ich jedoch nicht weiß, ist, wie Eingabe (Sprache) in einen Vektor "transformiert" wird, der später in HMM verwendet wird. Wie erhält man einen Vektor von einer Soundeingabe? Ist dieser …
Ich studiere Spracherkennung, insbesondere die Verwendung von MFCC zur Merkmalsextraktion. Alle Beispiele, die ich online gefunden habe, tendieren dazu, eine Reihe von MFCC grafisch darzustellen, die aus einer bestimmten Äußerung wie folgt extrahiert wurden (Grafik, die ich mit der Software erstellt habe, die ich schreibe): Wie Sie in der obigen …
Bitte helfen Sie mir, die Glättung von Daten zu verstehen. Dies ist eine Fortsetzung meiner vorherigen Frage, die hier veröffentlicht wurde . Besonders die Top-Antwort von Junuxx, wo er einen Weg zur Glättung einer Funktion sagtf( x )f(x)f(x) ist: f′[t]=0.1f[t−1]+0.8f[t]+0.1f[t+1]f′[t]=0.1f[t−1]+0.8f[t]+0.1f[t+1] f'[t] = 0.1 f[t-1] + 0.8 f[t] + 0.1 f[t+1] …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.