Lic. Javier Perez
Interfaz de voz
Propone un medio de interacción oral mediante el cúal las personas se comunican con los dispositivos de forma natural utilizando exclusivamente la voz.
Al contrario de los otros mecanismos de interacción, donde las personas deben adaptarse al uso de dispositivos artificiales, en la interacción por medio de la voz se invierte los roles, es la computadora quien se ocupa de comprender al ser humano.
Ventajas
Antecedentes
Dispositivos Móviles
Industria
Aplicaciones de escritorio
Aplicaciones web
Inconvenientes de los comandos de voz
Complejidad en la implementación
Frustrante para los usuarios
Para reducir errores es necesario limitar el vocabulario
El usuario debe saber o adivinar los comandos disponibles
La API de reconocimiento de voz tiene como objetivo dar servicios de análisis y síntesis del habla. Esto permite a los usuarios integrar un sistema de
reconocimiento de voz en aplicaciones web.
Transformación de comandos disponibles a fonemas utilizando Metaphone
| Comándo | Fonemas |
|---|---|
| click vínculo | KLKFNKL |
| click botón | KLKBTN |
| click imagen | KLKMJN |
| click video | KLKFT |
Transformación de transcripciones obtenidas luego de decir "click imagen"
| Comándo | Fonemas |
|---|---|
| click imagen | KLKMJN |
| click | KLK |
| clip imagen | KLPMJN |
| click mágico | KLKMJK |
Cálculo de similitud entre cada par de elementos de las listas utilizando Sorensen-Dice
| Fonemas de Transcripción | Fonemas de Comando | Similitud |
|---|---|---|
| KLKMJN | KLKFNKL | 0.36 |
| KLKMJN | KLKBTN | 0.40 |
| KLKMJN | KLKMJN | 1.00 |
| KLKMJN | KLKFT | 0.44 |
| KLK | KLKFNKL | 0.50 |
| KLK | KLKBTN | 0.57 |
| KLK | KLKMJN | 0.57 |
| KLK | KLKFT | 0.66 |
| KLPMJN | KLKFNKL | 0.18 |
| KLPMJN | KLKBTN | 0.20 |
| KLPMJN | KLKMJN | 0.60 |
| KLPMJN | KLKFT | 0.22 |
| KLKMJK | KLKFNKL | 0.36 |
| KLKMJK | KLKBTN | 0.40 |
| KLKMJK | KLKMJN | 0.80 |
| KLKMJK | KLKFT | 0.44 |
| Comándo | Fonemas |
|---|---|
| click vínculo | KLKFNKL |
| click botón | KLKBTN |
| click imagen | KLKMJN |
| click video | KLKFT |
| Transcripciones | Fonemas |
|---|---|
| click imagen | KLKMJN |
| click | KLK |
| clip imagen | KLPMJN |
| click mágico | KLKMJK |
| Comando | Transcripción | Similutd |
|---|---|---|
| Click imagen | Click imagen | 1.00 |
| Click imagen | Click mágico | 0.80 |
| Click | Click video | 0.66 |
| Click imagen | Clip imagen | 0.60 |
Resultados
El servicio de reconocimiento de voz provisto por los navegadores web posibilita a las aplicaciones web brindar nuevos mecanismos de interacción.
La incapacidad de especificar gramáticas a la hora de inicializar los servicios de la Web Speech API motiva la necesidad de inferir comandos de voz a partir de lo mencionado por el usuario.
Se propone un método de reconocimiento e inferencia de comandos, el cual realiza comparaciones fonéticas entre las transcripciones textuales resultantes de lo expresado verbalmente por el usuario y las acciones soportadas por el sistema.
El proceso de ejecución de comandos de voz, permite capturar la intención del usuario de una forma efectiva y confiable. Estas características hacen posible su utilización como punto de entrada de una interfaz de voz.