Modelos ocultos de Markov para el desarrollo de un sistema de ayuda al habla para personas que sufren de Disartria
Resumen
La voz o el habla es una de las formas básicas de intercambiar información entre los seres humanos. Daños neuronales ocasionados por un infarto, una embolia o trauma cerebral, pueden afectar a la voz del individuo, alterando su articulación, resonancia y respiración. A este cuadro patológico de la voz se le conoce como disartria.
Investigaciones realizadas en el extranjero han demostrado los beneficios de la tecnología computacional para la comunicación y asistencia de personas con disartria, especialmente de Sistemas de Reconocimiento Automático del Habla (SRAH). Sin embargo, no hay desarrollo de dicha tecnología que aborde el tema de la disartria, especialmente, no hay desarrollo de dicha tecnología que aborde el tema de la disartria en Lambayeque, y particularmente, de personas cuya lengua materna sea el español peruano.
El diseño de un sistema de RAH para voz disártrica implicar solucionar los siguientes problemas: (1) tasas variables de precisión de reconocimiento de voz (25-95%) para usuario con disartria; (2) los síntomas asociados a la disartria dificultan la recopilación de muestras de voz (corpus) para un entrenamiento supervisado robusto del sistema.
La presente tesis describe el diseño y desarrollo de un reconocedor automático de voz disártrica en español y una interfaz gráfica para su uso, el sistema en su totalidad será denominados “SISTEMA DE AYUDA AL HABLA (SAH)”. Esto para realizar funciones de apoyo en el nivel de comunicación de Página | 8 personas con el trastorno de disartria. La metodología de desarrollo abordó los problemas mencionados anteriormente, y como solución se propuso el desarrollo del sistema bajo la perspectiva de Dependencia del Usuario.
Para la función de Reconocimiento del sistema se utilizó la biblioteca HTL toolkit, siendo la técnica de modelado acústico los Modelos Ocultos de Markov (HMM). En las pruebas con un vocabulario de 5 palabras, se tuvo un aumento del nivel de comunicación de un 46,67%, y una tasa de reconocimiento de voz de 65%. Estos resultados fueron comparándose la precisión del SAH a la precisión del reconocimiento humano.
Colecciones
- Ingeniería de Sistemas [134]
El ítem tiene asociados los siguientes ficheros de licencia: