De techniek achter

Open Data

Joost Cassee

Haagse Hogeschool, 5 maart 2019

@jcassee

jcassee.com

joost@cassee.net

Open data is ...

ruw

vuil

ontstaan in

en

bedoeld voor

een andere context

Open data moet

bruikbaar

en

relevant

gemaakt worden

Processing pipeline

Van data naar informatie

Nieuwsartikelen van AT5 met geotag

gecombineerd met wijkgrenzen

geanalyseerd op sentiment

door eerst naar het Engels te vertalen

geeft een maat voor de toon van de berichtgeving per wijk

die je zou kunnen vergelijken met de criminaliteitscijfers

Voorbeeld stap

Indelen per wijk

Tools

Simpel

Filesystem

Big data

Grote organisaties

Tips

  • Sla resultaat tussenstappen op

     
  • Gebruik stabiele referenties uit de brondata

     
  • Maak stappen idempotent

Als een stap opnieuw uitgevoerd wordt verandert het resultaat niet.

Voorbeeld stap

Indelen per wijk

White board

Verrijken van gegevens

Groeperen op het land van de aanbesteder:

Er zijn veel minder aanbestedingen in Frankrijk dan je zou verwachten?

... en gegunde:

Vooral Duitse bedrijven winnen Griekse aanbestedingen?

... en groepeer onder moederbedrijf:

Philips gebruikt bij aanbestedingen lokale dochterbedrijven?

Voorbeeld stap

Moederbedrijven vinden

OpenCorporates

Gegunde bedrijf:

T-Mobile

Gegunde moederbedrijf:

Deutsche Telekom

SPARQL

Tools

Simpel

Big data

Grote organisaties

Tips

  • Gebruik stabiele referenties uit de brondata

     
  • Maak stappen idempotent

     
  • Houd stappen onafhankelijk

     
  • Houd een "audit trail" bij voor feiten

Architectuur OpenTED

Processing pipeline

White board

Samenvatting

Open data is ontstaan in en bedoeld voor een andere context

Gebruik een processing pipeline en/of white board architectuur om data bruikbaar en relevant te maken

Bedankt!

 

Vragen?

Fotobronnen

"Wolfsburg - Volkswagen Assembly Line", Roger Wollstadt

https://www.flickr.com/photos/24736216@N07/2994043188

"Investigating the operation of the Schmitt trigger on the whiteboard", Cyril Mechkov

https://commons.wikimedia.org/wiki/File:Student_and_teacher1_68a_1000.jpg

De techniek achter open data

By Joost Cassee

De techniek achter open data

Gastcollege gegeven op 5 maart 2019 voor studenten Software Engineering aan de Haagse Hogeschool.

  • 467