Interfaces de Voz con Web Speech Api

Javier Perez

UTN - La Plata - Agosto 2017

¿Por qué interfaces de voz?

Es natural

No necesita interacción manual

No hay necesidad de un pantalla

No necesita de un teclado

No necesita de un mouse

Mágia - Acción a larga distancia

 

Hablar es económico

Fácil, casi no involucra esfuerzo

Nuestra forma preferida de comunicarnos

Es más, lo hacemos todo el tiempo

Algunos de nosotros incluso no pueden parar

La forma más simple de trabajar

Una de las primeras cosas que aprendemos a hacer

Fácil de usar

El análisis de la voz permite una interfaz

de interacción no manual

 

No hay clicks, no hay tipeo, solo hay que decir las palabras mágicas

 

No hay que leer, solo escuchar

Comandos de voz

Muy dificil de hacer lo bien

Frustrante para los usuarios

Para reducir los errores necesitamos reducir el vocabulario

El usuario debe saber o adivinar los comandos disponibles

Corrección de errores

Linea de comandos

  1. borrar la palabra incorrecta
  2. reescribir
  3. enviar

Comando de voz

  1. repetir el comando hasta que sea correctamente reconocido

Web Speech Recognition Api

Ahora se puede hablar y obtener una transcripción

Web Speech Recognition Api

Notas de seguridad

  • Páginas accedidas vía HTTP necesitan obtener el permiso del usuario cada vez que se require hacer una captura de voz.

 

  • Páginas accedidas vía HTTPS requieren que el usuario acepte el permiso de captura de voz una única vez.

  • Una aplicación que previamente obtuvo el permiso puede capturar el sonido sin que vos lo sepas.

 

  • Toda la información capturada es enviada a un servidor remoto y no podés saber que sucede con ella.

Web Speech Synthesis Api

El navegador puede hablar por ti

84

Chappie

good-speech.com

Practica tu pronunciación en cualquier idioma

handsfreeforweb.com

Navega la web utilizando solo tu voz

Handsfree for Web

  • Soporte de cientos de comandos de voz que permiten navegar la web de forma exclusivamente oral

 

  • Inferencia de comandos de voz

 

  • Interfaz web adaptada a ser ejecutada mediante comandos de voz

 

  • Posibilidad de agregar comandos de voz personalizados

 

  • Posibilidad de definir comandos de voz nativos de un sitio web

Recursos

Handsfree for Web - Navega la web solo utilizando tu voz

https://www.handsfreeforweb.com

 

Good Speech - Practica tu pronunciación en cualquier idioma 

https://www.good-speech.com

 

annyang! - Agrega comandos de voz a tu sitio web

https://talater.com/annyang/

 

text-sound-similarity - Encuentra grados de similitud fonética entre dos textos

https://github.com/sljavi/text-sound-similarity

Demos

  • https://www.google.com/intl/en/chrome/demos/speech.html
  • https://www.audero.it/demo/web-speech-api-demo.html
  • https://github.com/sljavi/intro-web-speech-api

Speech Recognition

Speech Synthesis

  • http://codepen.io/matt-west/pen/wGzuJ
  • https://github.com/sljavi/intro-web-speech-api

Nivel de soporte en el Navegador

Nivel de soporte en el Navegador

Speech Apis alternativas

  • Google Speech API - De uso comercial, con un trial de 60 min mensuales.

 

  • Microsoft Cognitive Services - Bing Speech API, muchos plugins, por ejemplo autenticación.

 

  • API.AI - analiza intención, no simplemente reconocimineto de voz

 

  • Speechmatics - Aplio vocabulario, soporte de solo ingles, elevada precisión.

  • CMU Sphinx - Offline y Open Source.  Bajo requerimiento de hardware. Se puede ejecutar en dispositivos móviles. OpenEars - Pocketsphinx on iOS, there are also APIs for Node.js, Ruby, Java, Android bindings.

Más info!

Contacto

Links recomendados

Made with Slides.com