Requisitos para seguridad en big data
Examinacion de las areas ETL ( extraccion, transformacion y carga)
Enfoques para guardar la privacidad del usuario cuando almacena los datos en la nube:
Es el tratamiento de datos personales que resulta en una información que no pueda asociarse a la persona identificada o identificable.
"Latanya Sweeney demostró en el 2000 que el 87% de la población estadounidense puede ser identificado de manera única por una combinación de su código postal, género y fecha de nacimiento. Incluso si todos los demás detalles se eliminan de un conjunto de datos, tener sólo estas tres piezas de información (o ser capaz de recuperarlas mediante la fusión con otro conjunto de datos) es suficiente para volver a identificar a esa persona."
Singularización
Enlazabilidad
Inferencia
K-anonymity
Complejidad computacional
O(k log k)
NP-Completo
"Dados unos datos estructurados con campos específicos personales, ¿cómo poder asegurar con garantía científica, que en una nueva versión modificada de estos datos no se puedan re-identificar los individuos a los que se refieren, a la vez que los datos sigan siendo útiles en la práctica?."
L-Diversity
Complejidad computacional O(n²/k)
Se dice que una clase de equivalencia tiene l-diversidad si hay por lo menos valores "bien representados" para el atributo sensible. Se dice que una tabla tiene l-diversidad si cada clase de equivalencia de la tabla tiene l-diversidad.
T-Closeness
Complejidad computacional 2^(O(n)*O(m))
Se dice que una clase de equivalencia tiene t-proximidad si la distancia entre la distribución de un atributo sensible en esta clase y la distribución del atributo en toda la tabla no es más que un umbral t. Se dice que una tabla tiene t-proximidad si todas las clases de equivalencia tienen t-cercanía.
Es un modelo para la confidencialidad y privacidad en computación en la nube. Utiliza nubes públicas únicamente para datos insensibles y nubes privadas para datos sensibles.