Otro-UDG

Registro en la Red Mexicana de Repositorios Institucionales

TIPO: Otro
TÍTULO: Reconocimiento del habla mediante el uso de la correlación cruzada y una perceptrón multicapa
AUTOR: de Luna-Ortega, Carlos A.. Mora-González, Miguel. Martínez-Romo, Julio C.. Luna-Rosas, Francisco J.. Muñoz-Maciel, Jesús.
ASESORES: [Mora-González, Miguel; Muñoz-Maciel, Jesús] Universidad de Guadalajara, México; [Martínez-Romo, Julio C.; Luna-Rosas, Francisco J.] Instituto Tecnológico de Aguascalientes, México; [de Luna-Ortega, Carlos A.] Universidad Politécnica de Aguascalientes, México.
INSTITUCIÓN: Universidad de Guadalajara (UDG)
FECHA: 2014-01-01
PAIS: México
TEMAS: reconocimiento automático del habla; correlación cruzada; perceptrón multicapa; codificación de predicción lineal.
DESCRIPCIÓN: En el presente artículo se da a conocer una alternativa algorítimica a los sistemas actuales de reconocimiento automático del habla (ASR), mediante una propuesta en la forma de realizar la caracterización de las palabras basada en una aproximación que usa la extracción de coeficientes de la codificación de predicción lineal (LPC) y la correlación cruzada. La implementación consiste en extraer las características fonéticas mediante los coeficientes LPC, después se forman vectores de patrones de la pronunciación conformados por el promedio de los coeficientes LPC de las muestras de las palabras obteniendo un vector característico de cada pronunciación mediante la autocorrelación de las secuencias de coeficientes LPC; estos vectores se utilizan para entrenar un clasificador de tipo perceptrón multicapa (MLP). Se realizaron pruebas de desempeño previo entrenamiento con los diferentes patrones de las palabras a reconocer. Se utilizó la fonética de los dígitos del cero al nueve como vocabulario objetivo, debido a su amplia aplicación, y para estimar el desempeño de este método se utilizaron dos corpus de pronunciaciones: el corpus UPA, que contempla en su base de datos la pronuncación de la región occidente de México, y el corpus Tlatoa, que hace lo propio para la región centro de México. Las señales en ambos corpus fueron adquiridas en el lenguaje español, y a una frecuencia de muestreo de 8kHz. Los porcentajes de reconocimiento obtenidos fueron del 96.7 y 93.3% para las modalidades de mono-locutor para el corpus UPA y múltiple-locutor para el corpus Tlatoa, respectivamente. Asimismo, se realizó una comparación contra dos métodos clásicos del reconocimiento de voz y del habla, Dynamic Time Warping (DTW) y Hidden Markov Models (HMM)..
EDITOR: Universidad de La Salle Bajío A. C., Coordinación de Investigación
CONSULTA: Documento : http://hdl.handle.net/20.500.12104/62557
REPOSITORIO: Repositorio Institucional, Dirección General de Bibliotecas.; .; Metadatos en XML

www.remeri.org.mx