Reconocimiento de comandos de voz en español orientado al control de una silla de ruedas

  • Lily Jhohana Gil Vásquez Universidad Autónoma de Manizales
  • Luis Fernando Castillo Ossa Universidad Autónoma , Universidad de Caldas
  • Rubén Darío Flórez Hurtado Universidad Autónoma de Manizales

Resumen

Se presenta una aplicación computacional que reconoce instrucciones de voz en español para un vocabulario cerrado e independiente del hablante, adoptando el modelo de lenguaje que para el español proporciona la SAPI (Interfaz de Programación de Aplicaciones de Voz) de Microsoft®, de manera que reconozca solo la gramática relacionada con las funcionalidades que el usuario de la silla de ruedas automatizada que se trabaja al interior del grupo de investigación de Automática de la Universidad Autónoma de Manizales va a manejar. Las pruebas para medir el desempeño del sistema de reconocimiento se realizan de manera discriminada por género y se desarrollan en tres ambientes con rangos de nivel de ruido diferenciados según la actual legislación Colombiana sobre niveles máximos permisibles de ruido ambiental. Se resalta que el reconocimiento obtenido es independiente del hablante sin necesitar de los extensos entrenamientos previos que con otras herramientas se debe hacer.

Palabras clave: Microsoft SAPI, modelo de lenguaje, reconocimiento de voz, ruido ambiental, vocabulario cerrado

Descargas

La descarga de datos todavía no está disponible.

Biografía del autor

Lily Jhohana Gil Vásquez, Universidad Autónoma de Manizales

Magíster en mecatrónica y control. Docente del departamento de electrónica y automatización, Universidad Autónoma de Manizales.

Luis Fernando Castillo Ossa, Universidad Autónoma , Universidad de Caldas
Doctor en Informática y Automática de la Universidad de Salamanca, España. Director de la Maestría en Bioinformática y Biología Computacional y decano de la Facultad de Ingeniería de la Universidad de Caldas, Colombia. Profesor en la Universidad de Caldas y Autónoma de Manizales. 
Rubén Darío Flórez Hurtado, Universidad Autónoma de Manizales
Magister en Instrumentación Física, Universidad Tecnológica de Pereira. Coordinador del Departamento de Electrónica y Automatización, Universidad Autónoma de Manizales.

Citas

Organización Mundial de la Salud y Banco Mundial. (2011) Informe mundial sobre la discapacidad. [En línea]. Disponible en: https://goo.gl/0KtNAI

Ministerio de Salud y Protección. (2015). Registro para la localización y caracterización de personas con discapacidad (RLCPD)”.

C.S.L. Tsui et al, “EMG-based hands-free wheelchair control with EOG attention shift detection,” en IEEE Int’l Conf. Robotics and Biomimetics (ROBIO 2007), dic. 15-18, 2007, pp. 1266-1271. DOI: 10.1109/ROBIO.2007.4522346

S. Yathunanthan et al, “Controlling a Wheelchair by Use of EOG Signal,” en 4th Int’l Conf. Information and Automation for Sustainability (ICIAFS 2008), dic. 12-14, 2008, pp. 283-288. DOI: 10.1109/ICIAFS.2008.4783987

I. Iturrate, J. Antelis y J. Minguez, “Synchronous EEG brain-actuated wheelchair with automated navigation,” en IEEE Int’l Conf. Robotics and Automation (ICRA '09), may. 12-, 2009, pp. 2318-2325. DOI: 10.1109/ROBOT.2009.5152580

Z. Hu et al., “A novel intelligent wheelchair control approach based on head gesture recognition,” en Int. Conf. Computer Application and System Modeling (ICCASM), oct. 22-24, 2010, pp. V6-159-V6-163. DOI: 10.1109/ICCASM.2010.5619307

M.E. Lund et al, “Inductive tongue control of powered wheelchairs,” en Annual International Conference of the IEEE. Engineering in Medicine and Biology Society (EMBC), ago. 31, 2010-sep. 4, 2010, pp. 3361-3364. DOI: 10.1109/IEMBS.2010.5627923

X. Huang y L. Deng, “An Overview of Modern Speech Recognition,” en Handbook of Natural Language Processing, 2a ed.: Chapman & Hall/CRC, 2010, ch. 15 (ISBN: 1420085921), pp. 339-366.

Julius (2014) Open-Source Large Vocabulary CSR Engine Julius. [En línea]. Disponible en: http://julius.sourceforge.jp/en_index.php?q=index-en.html

CMU (2016) CMU Sphinx-Open Source Toolkit. [En línea]. Disponible en: http://cmusphinx.sourceforge.net/

The Institute for Signal and Information Processing. (2016) ISIP toolkit. About our software. [En línea]. Disponible en: http://www.isip.piconepress.com/projects/speech/software/

(2016) HTK Speech Recognition Toolkit. [En línea]. Disponible en: http://htk.eng.cam.ac.uk/

Microsoft (2016) Microsoft Developer Network. Speech API. [En línea]. Disponible en: https://goo.gl/XIc7po

M. Nishimori, T. Saitoh y R Konishi, “Voice controlled intelligent wheelchair,” en SICE, 2007 Annual Conference, Takamatsu, 2007, pp. 336-340. DOI: 10.1109/SICE.2007.4421003.

A. Škraba et al, “Speech-controlled cloud-based wheelchair platform for disabled persons,” Microprocessors and Microsystems, vol. 39, num. 8, nov.2015, pp. 819-828. DOI: 10.1016/j.micpro.2015.10.004

J.A. Ansari, A. Sathyamurthy y R. Balasubramanyam, “An Open Voice Command Interface Kit,” en IEEE Transactions on Human-Machine Systems, vol. 46, num. 3, jun. 2016, pp. 467-473, DOI: 10.1109/THMS.2015.2476458.

S.U. Khadilkar y N. Wagdarikar, “Android phone controlled voice, gesture and touch screen operated smart wheelchair,” en International Conference on Pervasive Computing (ICPC), Pune, 2015, pp. 1-4. DOI:10.1109/PERVASIVE.2015.7087119.

M. Fezari y A. Khati, “New speech processor and ultrasonic sensors based embedded system to improve the control of a motorised wheelchair,” en 3rd International Design and Test Workshop (IDT), dic. 20-22, 2008, pp. 345-349. DOI: 10.1109/IDT.2008.4802527

M.T. Qadri y S.A. Ahmed, “Voice Controlled Wheelchair Using DSK TMS320C6711,” en Int. Conf. on Signal Acquisition and Processing. (ICSAP), abr. 3-5, 2009, pp. 217-220. DOI: 10.1109/ICSAP.2009.48

M. Fezari, M. Bousbia-Salah y M. Bedda, "Voice and Sensor for More Security on an Electric Wheelchair," en 2nd Int. Conf. on Info. and Comm. Tech. (ICTTA), 2006, pp. 854-858. DOI: 10.1109/ICTTA.2006.1684485

C. Aruna et al, “Voice recognition and touch screen control based wheel chair for paraplegic persons,” en International Conference on Green Computing Communication and Electrical Engineering (ICGCCEE), mar. 6-8, 2014, pp. 1-5. DOI: 10.1109/ICGCCEE.2014.6922215

J.C. Martínez y J.L. Ramírez, “Diseño y construcción de un módulo automático controlado por voz adaptable a una silla de ruedas convencional,” Segundo Congreso Internacional de Ingeniería Mecatrónica, vol. 1, num. 1, pp. 1234-1234, Colombia, 2009.

O.I. Higuera, "Diseño e implementación de un prototipo de reconocimiento de voz basado en modelos ocultos de markov para comandar el movimiento de una silla de ruedas en un ambiente controlado," en XII Simposio de Tratamiento de Señales, Imágenes y Visión artificial, Colombia, 2007.

W. Acosta, M. Sarria y L. Duque, "Implementación de una metodología para la detección de comandos de voz utilizando HMM," Revista de Investigaciones Universidad del Quindío, vol. 23, num. 1, pp. 64-70, 2012. Disponible en: https://goo.gl/8Klti8.

D. Jurafsky y J.H. Martin, Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition, 2a ed.: Pearson Prentice Hall, 2009.

(2016) VoxForge. [En línea]. Disponible en: http://www.voxforge.org

X. Huang, A. Acero y H. Hon, Spoken Language Processing, a guide to theory, algorithm and system development, Prentice Hall, 2001.

J.V. Peña, "Contribuciones al reconocimiento robusto de habla," tesis doctoral, Dpto. de Teoría de la Señal y Comunicaciones, UC3M, Madrid, España, 2007. [En línea]. Disponible en: https://goo.gl/raEq5L

F.J. Hernando Pericas, "Técnicas de procesado y representación de la señal de voz para el reconocimiento del habla en ambientes ruidosos," tesis doctoral, Dpto. de Teoría de la Señal y Comunicaciones, UPC, Barcelona, España, 1993.

Microsoft (2016) Microsoft Developer Network. System.Speech Programming Guide for.NET Framework. [En línea]. Disponible en: https://goo.gl/PM20D6.

G.E Dahl et al, "Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition," IEEE Transactions on audio, speech, and language processing, vol. 20, num. 1, pp. 30-42, ene. 2012. DOI: 10.1109/TASL.2011.2134090

Microsoft (2016) Microsoft Developer Network Introducing Computer Speech Technology. Speech Server 2004 R2. [En línea]. Disponible en: http://msdn.microsoft.com/en-us/library/ms870025

Guía y procedimiento de medida del ruido de actividades en el interior de edificios. Según anexo IV del Real Decreto 1367/2007, AECOR, España, 2011. [En línea]. Disponible en: https://goo.gl
/ra4EHQ
Publicado
2016-03-03