Dados Abertos e Privacidade

Ewout ter Haar
ewout@usp.br
IFUSP
08/06/2013

Problema

A quantidade de informações sobre pessoas potencialmente disponíveis aumentou tanto, que noções tradicionais sobre como "anonimizar" ou "de-identificar" não funcionam mais.


Remover "Personal Identifiable Information" - PII (nome, CPF, endereço, etc.) de microdados não é mais suficiente para proteger a privacidade dos sujeitos de pesquisa.


Relação inversa entre a utilidade de uma base  para pesquisadores e risco de quebra de privacidade.

Dados Médicos

1997: re-identificação  do governador de Massachusetts em  registros médicos.


PII agora inclui identificadores "indiretos"

AOL

2006: Liberação de registros de busca de 650 mil usuários e re-identificação de alguns deles.

Netflix

2008: re-identificação de alguns sujeitos numa base anonimizada, combinando dados com dados públicos do IMDB.


A sua combinação de filmes favoritos muito provavelmente é "único" (bases "esparsas"): é um identificador em potencial.

18 identificadores

HIPAA: lei americana regulamentando divulgação de bases com dados médicos. Define 18 PII que devem ser tirado de bases públicos.

1. Names;
2. All geographical subdivisions smaller than a State,
3. All elements of dates (except year)
4. Phone numbers;
5. Fax numbers;
6. Electronic mail addresses;
7. Social Security numbers;
8. Medical record numbers;
9. Health plan beneficiary numbers;
10. Account numbers;
11. Certificate/license numbers;
12. Vehicle identifiers and serial numbers, including license plate numbers;
13. Device identifiers and serial numbers;
14. Web Universal Resource Locators (URLs);
15. Internet Protocol (IP) address numbers;
16. Biometric identifiers, including finger and voice prints;
17. Full face photographic images and any comparable images; and
18. Any other unique identifying number, characteristic, or code (note this does not mean the unique code assigned by the investigator to code the data)

Não é suficiente (em princípio)

Com a aumento de informação disponível publicamente, a distinção entre PII, quase-PII, PII "direta" e "indireta" perde sentido.

Think like an *-hole

"If there’s one thing I learned working in finance, it’s not to be naive about how information will be used. You’ve got to learn to think like an asshole to really see what to worry about. 

So, if you’re giving me information on where public schools need help, I’m going to imagine using that information to cut off credit for people who live nearby. If you tell me where environmental complaints are being served, I’m going to draw a map and see where they aren’t being served so I can take my questionable business practices there."

'privacidade para defender os fracos e transparência total para nos proteger dos poderosos!'

Sergio Amadeu
@samadeu

O problema é: são duas ideias incompatíveis. Cada caso requer uma avaliação, baseado em princípios e contexto.

Seeing like a Geek

Tom Slee, citando Kevin Donovan 
"Open data programmes, like the state, seek to 'make society legible through simplification'. "

"Eliminating illegibility in this way reduces the public’s political autonomy because it enables powerful entities to act on a greater scale."

Seeing like a State

James C. Scott
"legibilidade"




É preciso pensar sobre o contexto em que liberamos dados

Verspreiding van de joden over de gemeente (distribuição de judeus no município)


Mapa de vítimas de cólera em Londres, John Snow 1854


Como disponibilizar dados?

uma (1) ocorrência da palavra "privacy"

Talvez vale a pena considerar boas práticas desenvolvidas por estatísticos e outros profissionais trabalhando com dados dos outros.

Agências "tradicionais" como
http://www.dcc.ac.uk
http://www.ico.org.uk
Legislação como
Data Protection Directive (EU)

Microdata do Eurostat

Nova regulamentação:

"The main change in procedures consists in the fact that as from July 2013 all entities requesting access to microdata will have to be first recognized as eligible for access.  [...] The other important change is that the contract will be replaced by a licence (confidentiality undertaking). "

Duas visões do problema

    1. OHM, P. Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization. Disponível em: http://papers.ssrn.com/abstract=1450006 
    2. YAKOWITZ BAMBAUER, J. Tragedy of the Data Commons. Disponível em: http://papers.ssrn.com/abstract=1789749

    Ambos reconheçam a importância de balancear privacidade e os interesses de pesquisadores. Mas chegam a conclusões bem diferentes porque dão valores diferentes a os riscos de re-identificação vs o valor de dados públicos.

"Database of ruin"

For almost every one of us, then, we can assume a hypothetical database of ruin, the one containing this fact but until now splintered across dozens of databases on computers around the world, and thus disconnected from our identity. Reidentification has formed the database of ruin and given our worst enemies access to it." - Paul Ohm

THE SKY IS NOT FALLING: THE REALISTIC RISKS OF
PUBLIC DATA

"In time, technological solutions are likely to pare down the existing tension between data utility and disclosure risk.[...] In the mean-time, anonymization continues to be an excellent compromise. [...] Rather than sounding alarms and feeding into preexisting paranoia, the voices of reason from the legal academy should invoke a civic duty to participate in the public data commons" - Jane Yakowitz

Conclusão 

  • Anonimizar é cada vez mais difícil
  • A distinção entre propriedades "identificadores" é "não-identificadores" faz cada vez menos sentido, com o crescimento de dados públicos sobre um indivíduo. 
  • Somente remover PII ("Personal Identifiable Information") ou mesmo "k-anonimity" não é suficiente para proteção em qualquer circunstância.
  • Mas os riscos de re-identificação dependem do contexto. 
  • Recomendação: não considerar somente os dados, considerar o contexto em que pode ser usado.
  • Pesquisar como disponibilizar dados sem prejudicar privacidade, veja por ex. http://privacytools.seas.harvard.edu, "differential privacy"

    Mais Informação



      Dados Abertos e privacidade

      By ewout

      Dados Abertos e privacidade

      • 3,830