Privacidad en Big Data

¿A que nos referimos con big data?

Privacidad  y seguridad

  • Privacidad => Uso y gestion de datos
  • Seguridad => Proteger de ataques maliciosos

Diferencias

Requisitos para seguridad en big data

  • Especificacion de las politicas de privacidad de gestion de acceso a los datos
  • Auditores para hacer cumplir estas politicas
  • Integracion de los auditores con plataformas de analisis de destino.

Mejoramiento de plataformas en big data

Examinacion de las areas ETL ( extraccion, transformacion y carga)

  • Pre-validacion del proceso handoop
  • Mapeo
  • Validacion del proceso ETL
  • Informes de pruebas

 

Big data en la fase de generacion de datos

  • Restriccion de acceso
  • Falsificacion de datos

Herramientas de falsificacion de datos

  • SocketPoppet
  • Enmascarar identidad

Big data en la fase de almacenamiento de datos

  • Confidencialidad
  • Integridad
  • Disponibilidad

Ejemplo de almacenamiento en la nube

Enfoques para guardar la privacidad del usuario cuando almacena los datos en la nube:

  • Cifrado de control de acceso
  • Cifrado homomorphic
  • Nubes hibridas

Verificacion la integridad de los datos

De-identification

Es el tratamiento de datos personales que resulta en una información que no pueda asociarse a la persona identificada o identificable.

"Latanya Sweeney demostró en el 2000 que el 87% de la población estadounidense puede ser identificado de manera única por una combinación de su código postal, género y fecha de nacimiento. Incluso si todos los demás detalles se eliminan de un conjunto de datos, tener sólo estas tres piezas de información (o ser capaz de recuperarlas mediante la fusión con otro conjunto de datos) es suficiente para volver a identificar a esa persona."

Re-identification

Componentes de riesgo

  • Singularización

  • Enlazabilidad

  • Inferencia

Métodos para preservar la privacidad

K-anonymity

Complejidad computacional

O(k log k)

NP-Completo

"Dados unos datos estructurados con campos específicos personales, ¿cómo poder asegurar con garantía científica, que en una nueva versión modificada de estos datos no se puedan re-identificar los individuos a los que se refieren, a la vez que los datos sigan siendo útiles en la práctica?."

Técnicas

  • Supresión
  • Generalización

L-Diversity

Complejidad computacional O(n²/k)

Se dice que una clase de equivalencia tiene l-diversidad si hay por lo menos valores "bien representados" para el atributo sensible. Se dice que una tabla tiene l-diversidad si cada clase de equivalencia de la tabla tiene l-diversidad.

T-Closeness

Complejidad computacional 2^(O(n)*O(m))

Se dice que una clase de equivalencia tiene t-proximidad si la distancia entre la distribución de un atributo sensible en esta clase y la distribución del atributo en toda la tabla no es más que un umbral t. Se dice que una tabla tiene t-proximidad si todas las clases de equivalencia tienen t-cercanía.

HybrEx

Es un modelo para la confidencialidad y privacidad en computación en la nube. Utiliza nubes públicas únicamente para datos insensibles  y nubes privadas para datos sensibles.

Gracias

Privacidad en Big Data

By Carolina Jimenez Gomez