Privacidad en Big Data
¿A que nos referimos con big data?
Privacidad y seguridad
- Privacidad => Uso y gestion de datos
- Seguridad => Proteger de ataques maliciosos
Diferencias
Requisitos para seguridad en big data
- Especificacion de las politicas de privacidad de gestion de acceso a los datos
- Auditores para hacer cumplir estas politicas
- Integracion de los auditores con plataformas de analisis de destino.
Mejoramiento de plataformas en big data
Examinacion de las areas ETL ( extraccion, transformacion y carga)
- Pre-validacion del proceso handoop
- Mapeo
- Validacion del proceso ETL
- Informes de pruebas
Big data en la fase de generacion de datos
- Restriccion de acceso
- Falsificacion de datos
Herramientas de falsificacion de datos
- SocketPoppet
- Enmascarar identidad
Big data en la fase de almacenamiento de datos
- Confidencialidad
- Integridad
- Disponibilidad
Ejemplo de almacenamiento en la nube
Enfoques para guardar la privacidad del usuario cuando almacena los datos en la nube:
- Cifrado de control de acceso
- Cifrado homomorphic
- Nubes hibridas
Verificacion la integridad de los datos
De-identification
Es el tratamiento de datos personales que resulta en una información que no pueda asociarse a la persona identificada o identificable.
"Latanya Sweeney demostró en el 2000 que el 87% de la población estadounidense puede ser identificado de manera única por una combinación de su código postal, género y fecha de nacimiento. Incluso si todos los demás detalles se eliminan de un conjunto de datos, tener sólo estas tres piezas de información (o ser capaz de recuperarlas mediante la fusión con otro conjunto de datos) es suficiente para volver a identificar a esa persona."
Re-identification
Componentes de riesgo
-
Singularización
-
Enlazabilidad
-
Inferencia
Métodos para preservar la privacidad
K-anonymity
Complejidad computacional
O(k log k)
NP-Completo
"Dados unos datos estructurados con campos específicos personales, ¿cómo poder asegurar con garantía científica, que en una nueva versión modificada de estos datos no se puedan re-identificar los individuos a los que se refieren, a la vez que los datos sigan siendo útiles en la práctica?."
Técnicas
- Supresión
- Generalización
L-Diversity
Complejidad computacional O(n²/k)
Se dice que una clase de equivalencia tiene l-diversidad si hay por lo menos valores "bien representados" para el atributo sensible. Se dice que una tabla tiene l-diversidad si cada clase de equivalencia de la tabla tiene l-diversidad.
T-Closeness
Complejidad computacional 2^(O(n)*O(m))
Se dice que una clase de equivalencia tiene t-proximidad si la distancia entre la distribución de un atributo sensible en esta clase y la distribución del atributo en toda la tabla no es más que un umbral t. Se dice que una tabla tiene t-proximidad si todas las clases de equivalencia tienen t-cercanía.
HybrEx
Es un modelo para la confidencialidad y privacidad en computación en la nube. Utiliza nubes públicas únicamente para datos insensibles y nubes privadas para datos sensibles.
Gracias
Privacidad en Big Data
By Carolina Jimenez Gomez
Privacidad en Big Data
- 399