Implementación de un Sistema de Captura de Gestos Usando un Leap Motion y Redes Neuronales para su Clasificación

Gesture control

Problema

Reconocer gestos predeterminados de las manos con los datos provistos por el sensor Leap Motion.

(Yo solo quería jugar piedra, papel o tijera)

Caso de Estudio

Lengua de Señas

Instituciones Involucradas.

Tecnoparque, Bienestar Universitario, Fundación Conectando Sentidos y Escuela de la Palabra

Personas.

Jaime Hernández (Instituto de Audiología)

Juan Diego Salazar (Intérprete)

Jhon Haiber Osorio (profesor guia)

Piedra.

Papel.

Tijera.

Solución propuesta

Decisión.

Estudiar el reconocimiento de gestos en un conjunto perteneciente al alfabeto dactilológico de la lengua de señas Colombiana.

Tecnología.

Se decidió usar tecnologías web cómo: synaptic.js, angular.js, three.js para el front-end y Django y Mongoengine en el back-end. incluyendo técnicas de inteligencia artificial (Redes Neuronales).

Metodología

Acercamiento directo al problema.
Buscando seguir una Intención social y aplicarlo a un escenario real, se decidió hacer la recolección de información referente al tema.

Toma de datos.

Búsqueda de población dispuesta a cooperar.
(se uso un grupo aproximadamente de 10 personas en etapas iniciales del proyecto)

Diseño.

Búsqueda de herramientas necesarias y creación de prototipo inicial.

Implementación

Esquema de Componentes.

Diagrama de componentes.

Módulos.

Descripción de módulos desarrollados.

Clasificación de Gestos.

Descripción de procesos de clasificación implementados.

Esquema de Componentes

Módulos

Características

posición (15 XYZ coordinates)

18.1

Leap motion data

18.2

18.3

Arquitectura 1

Arquitectura 2

Pruebas

Crear conjunto de elementos a incluir en el set de datos.
Entrenar ambas arquitecturas con los mismos datos.

entrenamientos fallidos

22.1

22.2

22.3

Resultados

Las comparaciones se hicieron en términos de:

Cantidad de gestos a clasificar.
Cantidad de datos usados en entrenamiento.
Tiempo.
Iteraciones.

Conclusiones

Se detectó que para consistencia del modelo se deben tener la misma proporción de datos de entrenamiento para cada gesto.
La cantidad de iteraciones y tiempos necesarios difieren para ambos modelos y la arquitectura 2 es un buen candidato para uso en una NUI. (natural user interface)
Es necesario usar características más invariantes para obtener mejores resultados en gestos con transformaciones geométricas (ej. Rotaciones).

Repositorio

https://gitlab.com/Blackzen/PROYECT_LAST.git

Articulo

https://www.sharelatex.com/project/58e26f023bdf3f002b6a0ded

Trabajos futuros

Implementar métodos inteligentes para la selección de parámetros (ej. podado sináptico).
Depurar entrenamiento usando matriz de confusión y validación cruzada.