Ejecución de comandos de voz
mediante Web Speech API
Lic. Javier Perez

Interfaces de comandos de voz
Interfaz de voz
Propone un medio de interacción oral mediante el cúal las personas se comunican con los dispositivos de forma natural utilizando exclusivamente la voz.
Al contrario de los otros mecanismos de interacción, donde las personas deben adaptarse al uso de dispositivos artificiales, en la interacción por medio de la voz se invierte los roles, es la computadora quien se ocupa de comprender al ser humano.
Ventajas
- Es natural
- No necesita interacción manual
- Mágia - Acción a larga distancia
Interfaces de comandos de voz
Antecedentes
-
Dispositivos Móviles
-
Industria
-
Aplicaciones de escritorio
-
Aplicaciones web
Inconvenientes de los comandos de voz
-
Complejidad en la implementación
-
Frustrante para los usuarios
-
Para reducir errores es necesario limitar el vocabulario
-
El usuario debe saber o adivinar los comandos disponibles
Extension Handsfree for web
Navega la web utilizando solo tu voz

Extension Handsfree for web
Modelo de arquitectura y flujo de datos

Tecnologías involucradas
- Chrome extension
- Api de reconocimiento de voz
Web Speech API
Ventajas
La API de reconocimiento de voz tiene como objetivo dar servicios de análisis y síntesis del habla. Esto permite a los usuarios integrar un sistema de
reconocimiento de voz en aplicaciones web.
- Servicio de procesamiento de voz externo a la aplicación
- Procesamiento remoto
- Procesamiento en tiempo real
- Obtención de resultados parciales durante el proceso de reconocimiento
- Uso gratuito y sin límites
- Sistema de reconocimiento independiente del usuario, de propósito general y capaz de procesar frases con palabras conectadas
- Soporte de múltiples idiomas y dialectos
- Mejora continua del servicio
- Posibilidad de definir un servicio de reconocimiento alternativo al que viene asignado por defecto
Objetivo
Web Speech API
Soporte

Extension Handsfree for web
Proceso de ejecución de un comando de voz
- Recepción y envío de señal sonora
- Reconocimiento de voz continuo
- Reconocimiento de voz luego de presionar una tecla
- Recepción de texto resultante
- Resolución de comando de voz
- Obtención de fonemas
- Comparación de comandos
- Identificación de mejor comando
- Márgenes de error
- Ejecución de comando de voz

Extension Handsfree for web
Resolución de comando de voz
Transformación de comandos disponibles a fonemas utilizando Metaphone
| Comándo | Fonemas |
|---|---|
| click vínculo | KLKFNKL |
| click botón | KLKBTN |
| click imagen | KLKMJN |
| click video | KLKFT |
Transformación de transcripciones obtenidas luego de decir "click imagen"
| Comándo | Fonemas |
|---|---|
| click imagen | KLKMJN |
| click | KLK |
| clip imagen | KLPMJN |
| click mágico | KLKMJK |
Cálculo de similitud entre cada par de elementos de las listas utilizando Sorensen-Dice
| Fonemas de Transcripción | Fonemas de Comando | Similitud |
|---|---|---|
| KLKMJN | KLKFNKL | 0.36 |
| KLKMJN | KLKBTN | 0.40 |
| KLKMJN | KLKMJN | 1.00 |
| KLKMJN | KLKFT | 0.44 |
| KLK | KLKFNKL | 0.50 |
| KLK | KLKBTN | 0.57 |
| KLK | KLKMJN | 0.57 |
| KLK | KLKFT | 0.66 |
| KLPMJN | KLKFNKL | 0.18 |
| KLPMJN | KLKBTN | 0.20 |
| KLPMJN | KLKMJN | 0.60 |
| KLPMJN | KLKFT | 0.22 |
| KLKMJK | KLKFNKL | 0.36 |
| KLKMJK | KLKBTN | 0.40 |
| KLKMJK | KLKMJN | 0.80 |
| KLKMJK | KLKFT | 0.44 |
| Comándo | Fonemas |
|---|---|
| click vínculo | KLKFNKL |
| click botón | KLKBTN |
| click imagen | KLKMJN |
| click video | KLKFT |
| Transcripciones | Fonemas |
|---|---|
| click imagen | KLKMJN |
| click | KLK |
| clip imagen | KLPMJN |
| click mágico | KLKMJK |
| Comando | Transcripción | Similutd |
|---|---|---|
| Click imagen | Click imagen | 1.00 |
| Click imagen | Click mágico | 0.80 |
| Click | Click video | 0.66 |
| Click imagen | Clip imagen | 0.60 |
Resultados
Conclusiones
El servicio de reconocimiento de voz provisto por los navegadores web posibilita a las aplicaciones web brindar nuevos mecanismos de interacción.
La incapacidad de especificar gramáticas a la hora de inicializar los servicios de la Web Speech API motiva la necesidad de inferir comandos de voz a partir de lo mencionado por el usuario.
Se propone un método de reconocimiento e inferencia de comandos, el cual realiza comparaciones fonéticas entre las transcripciones textuales resultantes de lo expresado verbalmente por el usuario y las acciones soportadas por el sistema.
El proceso de ejecución de comandos de voz, permite capturar la intención del usuario de una forma efectiva y confiable. Estas características hacen posible su utilización como punto de entrada de una interfaz de voz.
Ejecución de comandos de voz mediante Web Speech API
By Javier Perez
Ejecución de comandos de voz mediante Web Speech API
- 283