Interfaces de Voz con Web Speech Api

Javier Perez

UTN - La Plata - Agosto 2017

¿Por qué interfaces de voz?

Es natural

No necesita interacción manual

No hay necesidad de un pantalla

No necesita de un teclado

No necesita de un mouse

Mágia - Acción a larga distancia

Hablar es económico

Fácil, casi no involucra esfuerzo

Nuestra forma preferida de comunicarnos

Es más, lo hacemos todo el tiempo

Algunos de nosotros incluso no pueden parar

La forma más simple de trabajar

Una de las primeras cosas que aprendemos a hacer

Fácil de usar

El análisis de la voz permite una interfaz

de interacción no manual

No hay clicks, no hay tipeo, solo hay que decir las palabras mágicas

No hay que leer, solo escuchar

Comandos de voz

Muy dificil de hacer lo bien

Frustrante para los usuarios

Para reducir los errores necesitamos reducir el vocabulario

El usuario debe saber o adivinar los comandos disponibles

Corrección de errores

Linea de comandos

borrar la palabra incorrecta
reescribir
enviar

Comando de voz

repetir el comando hasta que sea correctamente reconocido

Web Speech Recognition Api

Ahora se puede hablar y obtener una transcripción

Web Speech Recognition Api

Notas de seguridad

Páginas accedidas vía HTTP necesitan obtener el permiso del usuario cada vez que se require hacer una captura de voz.

Páginas accedidas vía HTTPS requieren que el usuario acepte el permiso de captura de voz una única vez.

Una aplicación que previamente obtuvo el permiso puede capturar el sonido sin que vos lo sepas.

Toda la información capturada es enviada a un servidor remoto y no podés saber que sucede con ella.

Web Speech Synthesis Api

El navegador puede hablar por ti

Chappie

good-speech.com

Practica tu pronunciación en cualquier idioma

handsfreeforweb.com

Navega la web utilizando solo tu voz

Handsfree for Web

Soporte de cientos de comandos de voz que permiten navegar la web de forma exclusivamente oral

Inferencia de comandos de voz

Interfaz web adaptada a ser ejecutada mediante comandos de voz

Posibilidad de agregar comandos de voz personalizados

Posibilidad de definir comandos de voz nativos de un sitio web

Recursos

Handsfree for Web - Navega la web solo utilizando tu voz

https://www.handsfreeforweb.com

Good Speech - Practica tu pronunciación en cualquier idioma

https://www.good-speech.com

annyang! - Agrega comandos de voz a tu sitio web

https://talater.com/annyang/

text-sound-similarity - Encuentra grados de similitud fonética entre dos textos

https://github.com/sljavi/text-sound-similarity

Demos

https://www.google.com/intl/en/chrome/demos/speech.html
https://www.audero.it/demo/web-speech-api-demo.html
https://github.com/sljavi/intro-web-speech-api

Speech Recognition

Speech Synthesis

http://codepen.io/matt-west/pen/wGzuJ
https://github.com/sljavi/intro-web-speech-api

Nivel de soporte en el Navegador

Speech Apis alternativas

Google Speech API - De uso comercial, con un trial de 60 min mensuales.

Microsoft Cognitive Services - Bing Speech API, muchos plugins, por ejemplo autenticación.

API.AI - analiza intención, no simplemente reconocimineto de voz

Speechmatics - Aplio vocabulario, soporte de solo ingles, elevada precisión.

CMU Sphinx - Offline y Open Source. Bajo requerimiento de hardware. Se puede ejecutar en dispositivos móviles. OpenEars - Pocketsphinx on iOS, there are also APIs for Node.js, Ruby, Java, Android bindings.

Más info!

http://shapeshed.com/html5-speech-recognition-api/
https://dvcs.w3.org/hg/speech-api/raw-file/9a0075d25326/speechapi.html
https://developer.mozilla.org/en-US/docs/Web/API/Web_Speech_API

Contacto

Links recomendados

Javier Perez

javi.pzv@gmail.com

https://github.com/sljavi