Ejecución de comandos de voz
mediante Web Speech API

Lic. Javier Perez

Interfaces de comandos de voz

Interfaz de voz

Propone un medio de interacción oral mediante el cúal las personas se comunican con los dispositivos de forma natural utilizando exclusivamente la voz.

 

Al contrario de los otros mecanismos de interacción, donde las personas deben adaptarse al uso de dispositivos artificiales, en la interacción por medio de la voz se invierte los roles, es la computadora quien se ocupa de comprender al ser humano.

Ventajas

  • Es natural
  • No necesita interacción manual
  • Mágia - Acción a larga distancia

Interfaces de comandos de voz

Antecedentes

  • Dispositivos Móviles

  • Industria

  • Aplicaciones de escritorio

  • Aplicaciones web

Inconvenientes de los comandos de voz

  • Complejidad en la implementación

  • Frustrante para los usuarios

  • Para reducir errores es necesario limitar el vocabulario

  • El usuario debe saber o adivinar los comandos disponibles

Extension Handsfree for web

Navega la web utilizando solo tu voz

Extension Handsfree for web

Modelo de arquitectura y flujo de datos

Tecnologías involucradas

  • Chrome extension
  • Api de reconocimiento de voz

Web Speech API

Ventajas

La API de reconocimiento de voz tiene como objetivo dar servicios de análisis y síntesis del habla. Esto permite a los usuarios integrar un sistema de
reconocimiento de voz en aplicaciones web.

  • Servicio de procesamiento de voz externo a la aplicación
  • Procesamiento remoto
  • Procesamiento en tiempo real
  • Obtención de resultados parciales durante el proceso de reconocimiento
  • Uso gratuito y sin límites
  • Sistema de reconocimiento independiente del usuario, de propósito general y capaz de procesar frases con palabras conectadas
  • Soporte de múltiples idiomas y dialectos
  • Mejora continua del servicio
  • Posibilidad de definir un servicio de reconocimiento alternativo al que viene asignado por defecto

Objetivo

Web Speech API

Soporte

Extension Handsfree for web

Proceso de ejecución de un comando de voz

  • Recepción y envío de señal sonora
    •  Reconocimiento de voz continuo
    •  Reconocimiento de voz luego de presionar una tecla
  • Recepción de texto resultante
  • Resolución de comando de voz
    • Obtención de fonemas
    • Comparación de comandos
    • Identificación de mejor comando
    • Márgenes de error
  • Ejecución de comando de voz

Extension Handsfree for web

Resolución de comando de voz

Transformación de comandos disponibles a fonemas utilizando Metaphone

Comándo Fonemas
click vínculo KLKFNKL
click botón KLKBTN
click imagen KLKMJN
click video KLKFT

Transformación de transcripciones obtenidas luego de decir "click imagen"

Comándo Fonemas
click imagen KLKMJN
click KLK
clip imagen KLPMJN
click mágico KLKMJK

Cálculo de similitud entre cada par de elementos de las listas utilizando Sorensen-Dice

Fonemas de Transcripción Fonemas de Comando Similitud
KLKMJN KLKFNKL 0.36
KLKMJN KLKBTN 0.40
KLKMJN KLKMJN 1.00
KLKMJN KLKFT 0.44
KLK KLKFNKL 0.50
KLK KLKBTN 0.57
KLK KLKMJN 0.57
KLK KLKFT 0.66
KLPMJN KLKFNKL 0.18
KLPMJN KLKBTN 0.20
KLPMJN KLKMJN 0.60
KLPMJN KLKFT 0.22
KLKMJK KLKFNKL 0.36
KLKMJK KLKBTN 0.40
KLKMJK KLKMJN 0.80
KLKMJK KLKFT 0.44
Comándo Fonemas
click vínculo KLKFNKL
click botón KLKBTN
click imagen KLKMJN
click video KLKFT
Transcripciones Fonemas
click imagen KLKMJN
click KLK
clip imagen KLPMJN
click mágico KLKMJK
Comando Transcripción Similutd
Click imagen Click imagen 1.00
Click imagen Click mágico 0.80
Click Click video 0.66
Click imagen Clip imagen 0.60

Resultados

Conclusiones

El servicio de reconocimiento de voz provisto por los navegadores web posibilita a las aplicaciones web brindar nuevos mecanismos de interacción.

 

La incapacidad de especificar gramáticas a la hora de inicializar los servicios de  la Web Speech API motiva la necesidad de inferir comandos de voz a partir de lo mencionado por el usuario.

 

Se propone un método de reconocimiento e inferencia de comandos, el cual realiza comparaciones fonéticas entre las transcripciones textuales resultantes de lo  expresado verbalmente por el usuario y las acciones soportadas por el sistema.


El proceso de ejecución de comandos de voz, permite capturar la intención del usuario de una forma efectiva y confiable. Estas características hacen posible su utilización como punto de entrada de una interfaz de voz.

Made with Slides.com