De techniek achter
Open Data
Joost Cassee
Haagse Hogeschool, 5 maart 2019
@jcassee
jcassee.com
joost@cassee.net
Open data is ...
ruw
vuil
ontstaan in
en
bedoeld voor
een andere context
Open data moet
bruikbaar
en
relevant
gemaakt worden
Processing pipeline
Van data naar informatie
Nieuwsartikelen van AT5 met geotag
gecombineerd met wijkgrenzen
geanalyseerd op sentiment
door eerst naar het Engels te vertalen
geeft een maat voor de toon van de berichtgeving per wijk
die je zou kunnen vergelijken met de criminaliteitscijfers
Voorbeeld stap
Indelen per wijk
Tools
Simpel
Filesystem
Big data
Grote organisaties
Tips
- Sla resultaat tussenstappen op
- Gebruik stabiele referenties uit de brondata
- Maak stappen idempotent
Als een stap opnieuw uitgevoerd wordt verandert het resultaat niet.
Voorbeeld stap
Indelen per wijk
White board
Verrijken van gegevens
Groeperen op het land van de aanbesteder:
Er zijn veel minder aanbestedingen in Frankrijk dan je zou verwachten?
... en gegunde:
Vooral Duitse bedrijven winnen Griekse aanbestedingen?
... en groepeer onder moederbedrijf:
Philips gebruikt bij aanbestedingen lokale dochterbedrijven?
Voorbeeld stap
Moederbedrijven vinden
OpenCorporates
Gegunde bedrijf:
T-Mobile
Gegunde moederbedrijf:
Deutsche Telekom
SPARQL
Tools
Simpel
Big data
Grote organisaties
Tips
- Gebruik stabiele referenties uit de brondata
- Maak stappen idempotent
- Houd stappen onafhankelijk
- Houd een "audit trail" bij voor feiten
Architectuur OpenTED
Processing pipeline
White board
Samenvatting
Open data is ontstaan in en bedoeld voor een andere context
Gebruik een processing pipeline en/of white board architectuur om data bruikbaar en relevant te maken
Bedankt!
Vragen?
Fotobronnen
"Wolfsburg - Volkswagen Assembly Line", Roger Wollstadt
https://www.flickr.com/photos/24736216@N07/2994043188
"Investigating the operation of the Schmitt trigger on the whiteboard", Cyril Mechkov
https://commons.wikimedia.org/wiki/File:Student_and_teacher1_68a_1000.jpg
De techniek achter open data
By Joost Cassee
De techniek achter open data
Gastcollege gegeven op 5 maart 2019 voor studenten Software Engineering aan de Haagse Hogeschool.
- 510