Ejecución de comandos de voz
mediante Web Speech API

Lic. Javier Perez

Interfaces de comandos de voz

Interfaz de voz

Propone un medio de interacción oral mediante el cúal las personas se comunican con los dispositivos de forma natural utilizando exclusivamente la voz.

Al contrario de los otros mecanismos de interacción, donde las personas deben adaptarse al uso de dispositivos artificiales, en la interacción por medio de la voz se invierte los roles, es la computadora quien se ocupa de comprender al ser humano.

Ventajas

Es natural
No necesita interacción manual
Mágia - Acción a larga distancia

Interfaces de comandos de voz

Antecedentes

Dispositivos Móviles
Industria
Aplicaciones de escritorio
Aplicaciones web

Inconvenientes de los comandos de voz

Complejidad en la implementación
Frustrante para los usuarios
Para reducir errores es necesario limitar el vocabulario
El usuario debe saber o adivinar los comandos disponibles

Extension Handsfree for web

Navega la web utilizando solo tu voz

Extension Handsfree for web

Modelo de arquitectura y flujo de datos

Tecnologías involucradas

Chrome extension
Api de reconocimiento de voz

Web Speech API

Ventajas

La API de reconocimiento de voz tiene como objetivo dar servicios de análisis y síntesis del habla. Esto permite a los usuarios integrar un sistema de
reconocimiento de voz en aplicaciones web.

Servicio de procesamiento de voz externo a la aplicación
Procesamiento remoto
Procesamiento en tiempo real
Obtención de resultados parciales durante el proceso de reconocimiento
Uso gratuito y sin límites
Sistema de reconocimiento independiente del usuario, de propósito general y capaz de procesar frases con palabras conectadas
Soporte de múltiples idiomas y dialectos
Mejora continua del servicio
Posibilidad de definir un servicio de reconocimiento alternativo al que viene asignado por defecto

Objetivo

Web Speech API

Soporte

Extension Handsfree for web

Proceso de ejecución de un comando de voz

Recepción y envío de señal sonora
- Reconocimiento de voz continuo
- Reconocimiento de voz luego de presionar una tecla
Recepción de texto resultante
Resolución de comando de voz
- Obtención de fonemas
- Comparación de comandos
- Identificación de mejor comando
- Márgenes de error
Ejecución de comando de voz

Extension Handsfree for web

Resolución de comando de voz

Transformación de comandos disponibles a fonemas utilizando Metaphone

Comándo	Fonemas
click vínculo	KLKFNKL
click botón	KLKBTN
click imagen	KLKMJN
click video	KLKFT

Transformación de transcripciones obtenidas luego de decir "click imagen"

Comándo	Fonemas
click imagen	KLKMJN
click	KLK
clip imagen	KLPMJN
click mágico	KLKMJK

Cálculo de similitud entre cada par de elementos de las listas utilizando Sorensen-Dice

Fonemas de Transcripción	Fonemas de Comando	Similitud
KLKMJN	KLKFNKL	0.36
KLKMJN	KLKBTN	0.40
KLKMJN	KLKMJN	1.00
KLKMJN	KLKFT	0.44
KLK	KLKFNKL	0.50
KLK	KLKBTN	0.57
KLK	KLKMJN	0.57
KLK	KLKFT	0.66
KLPMJN	KLKFNKL	0.18
KLPMJN	KLKBTN	0.20
KLPMJN	KLKMJN	0.60
KLPMJN	KLKFT	0.22
KLKMJK	KLKFNKL	0.36
KLKMJK	KLKBTN	0.40
KLKMJK	KLKMJN	0.80
KLKMJK	KLKFT	0.44

Comándo	Fonemas
click vínculo	KLKFNKL
click botón	KLKBTN
click imagen	KLKMJN
click video	KLKFT

Transcripciones	Fonemas
click imagen	KLKMJN
click	KLK
clip imagen	KLPMJN
click mágico	KLKMJK

Comando	Transcripción	Similutd
Click imagen	Click imagen	1.00
Click imagen	Click mágico	0.80
Click	Click video	0.66
Click imagen	Clip imagen	0.60

Resultados

Conclusiones

El servicio de reconocimiento de voz provisto por los navegadores web posibilita a las aplicaciones web brindar nuevos mecanismos de interacción.

La incapacidad de especificar gramáticas a la hora de inicializar los servicios de la Web Speech API motiva la necesidad de inferir comandos de voz a partir de lo mencionado por el usuario.

Se propone un método de reconocimiento e inferencia de comandos, el cual realiza comparaciones fonéticas entre las transcripciones textuales resultantes de lo expresado verbalmente por el usuario y las acciones soportadas por el sistema.

El proceso de ejecución de comandos de voz, permite capturar la intención del usuario de una forma efectiva y confiable. Estas características hacen posible su utilización como punto de entrada de una interfaz de voz.

Ejecución de comandos de voz mediante Web Speech API

Interfaces de comandos de voz

Interfaces de comandos de voz

Extension Handsfree for web

Navega la web utilizando solo tu voz

Extension Handsfree for web

Modelo de arquitectura y flujo de datos

Tecnologías involucradas

Web Speech API

Ventajas

Objetivo

Web Speech API

Soporte

Extension Handsfree for web

Proceso de ejecución de un comando de voz

Extension Handsfree for web

Resolución de comando de voz

Conclusiones

Ejecución de comandos de voz
mediante Web Speech API