Dados Abertos e Privacidade
ewout@usp.br
Problema
A quantidade de informações sobre pessoas potencialmente disponíveis aumentou tanto, que noções tradicionais sobre como "anonimizar" ou "de-identificar" não funcionam mais.
Remover "Personal Identifiable Information" - PII (nome, CPF, endereço, etc.) de microdados não é mais suficiente para proteger a privacidade dos sujeitos de pesquisa.
Relação inversa entre a utilidade de uma base para pesquisadores e risco de quebra de privacidade.
Dados Médicos
1997: re-identificação do governador de Massachusetts em registros médicos.
PII agora inclui identificadores "indiretos"
AOL
Netflix
2008: re-identificação de alguns sujeitos numa base anonimizada, combinando dados com dados públicos do IMDB.
A sua combinação de filmes favoritos muito provavelmente é "único" (bases "esparsas"): é um identificador em potencial.
18 identificadores
HIPAA: lei americana regulamentando divulgação de bases com dados médicos. Define 18 PII que devem ser tirado de bases públicos.
1. Names;
2. All geographical subdivisions smaller than a State,
3. All elements of dates (except year)
4. Phone numbers;
5. Fax numbers;
6. Electronic mail addresses;
7. Social Security numbers;
8. Medical record numbers;
9. Health plan beneficiary numbers;
10. Account numbers;
11. Certificate/license numbers;
12. Vehicle identifiers and serial numbers, including license plate numbers;
13. Device identifiers and serial numbers;
14. Web Universal Resource Locators (URLs);
15. Internet Protocol (IP) address numbers;
16. Biometric identifiers, including finger and voice prints;
17. Full face photographic images and any comparable images; and
18. Any other unique identifying number, characteristic, or
code (note this does not mean the unique code assigned by the
investigator to code the data)
Não é suficiente (em princípio)
Com a aumento de informação disponível publicamente, a distinção entre PII, quase-PII, PII "direta" e "indireta" perde sentido.
Think like an *-hole
'privacidade para defender os fracos e transparência total para nos proteger dos poderosos!'
O problema é: são duas ideias incompatíveis. Cada caso requer uma avaliação, baseado em princípios e contexto.
Seeing like a Geek
Seeing like a State
É preciso pensar sobre o contexto em que liberamos dados
Verspreiding van de joden over de gemeente (distribuição de judeus no município)
Mapa de vítimas de cólera em Londres, John Snow 1854
Como disponibilizar dados?
Agências "tradicionais" como
http://www.dcc.ac.uk
http://www.ico.org.ukLegislação como
Data Protection Directive (EU)
Microdata do Eurostat
"The main change in procedures consists in the fact that as from July 2013 all entities requesting access to microdata will have to be first recognized as eligible for access. [...] The other important change is that the contract will be replaced by a licence (confidentiality undertaking). "
Duas visões do problema
- OHM, P. Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization. Disponível em: http://papers.ssrn.com/abstract=1450006
- YAKOWITZ BAMBAUER, J. Tragedy of the Data Commons. Disponível em: http://papers.ssrn.com/abstract=1789749
"Database of ruin"
For almost every one of us, then, we can assume a hypothetical database of ruin, the one containing this fact but until now splintered across dozens of databases on computers around the world, and thus disconnected from our identity. Reidentification has formed the database of ruin and given our worst enemies access to it." - Paul Ohm
THE SKY IS NOT FALLING: THE REALISTIC RISKS OF
PUBLIC DATA
Conclusão
- Anonimizar é cada vez mais difícil
- A distinção entre propriedades "identificadores" é "não-identificadores" faz cada vez menos sentido, com o crescimento de dados públicos sobre um indivíduo.
- Somente remover PII ("Personal Identifiable Information") ou mesmo "k-anonimity" não é suficiente para proteção em qualquer circunstância.
- Mas os riscos de re-identificação dependem do contexto.
- Recomendação: não considerar somente os dados, considerar o contexto em que pode ser usado.
- Pesquisar como disponibilizar dados sem prejudicar privacidade, veja por ex. http://privacytools.seas.harvard.edu, "differential privacy"
Mais Informação
- dados genômicos
Dados Abertos e privacidade
By ewout
Dados Abertos e privacidade
- 4,098