De techniek achter
Open Data
Joost Cassee
Haagse Hogeschool, 21 september 2015
@jcassee
jcassee.com
joost@cassee.net
Van data naar informatie
Nieuwsartikelen van AT5 met geotag
gecombineerd met wijkgrenzen
geanalyseerd op sentiment
door eerst naar het Engels te vertalen
geeft een maat voor de toon van de berichtgeving per wijk
die je zou kunnen vergelijken met de criminaliteitscijfers
Open data is ...
Ruw
Vuil
Processing pipeline
Voorbeeldproces
- Laad de CBS data "Grenzen wijken en buurten" in
- Maak voor iedere wijk een submap aan in de uitvoermap
(noem deze naar het wijknummer in de CBS data) - Voor alle bestanden (artikelen) uit de invoermap:
- Bepaal in welke wijk de gebeurtenis plaatsvond
- Schrijf het artikel weg naar de juiste submap
(gebruik dezelfde bestandsnaam als de invoer)
Indelen per wijk
Tips
- Resultaat tussenstappen opslaan
- Idempotente operaties
- Stabiele identifiers
Tools
Simpel
- Filesystem / MongoDB / CouchDB
- Python
Enterprisy
- Apache Camel
- Java
Big data
- Apache Storm
Verfijnen van informatie
Groeperen op het land van de aanbesteder:
Er zijn veel minder aanbestedingen in Frankrijk dan je zou verwachten?
... en gegunde:
Vooral Duitse bedrijven winnen Griekse aanbestedingen?
... en groepeer onder moederbedrijf:
Philips gebruikt bij aanbestedingen lokale dochterbedrijven?
White board
Voorbeeldproces
Voor alle documenten met een gegunde
(die niet zijn verwerkt door dit proces):
- Zoek de moederbedrijven in OpenCorporate
- Sla de moederbedrijven op in het document
- Markeer het document als verwerkt door dit proces
Moederbedrijven vinden
Tips
- Onafhankelijke processen
- Idempotente operaties
- Stabiele identifiers
- "Audit trail" voor feiten
Tools
Simpel
- MongoDB / CouchDB
- Python
Enterprisy
- RDF triplestore
- SPARQL
Big data
- Hadoop
- Mapreduce
Architectuur OpenTED
Processing pipeline
White board
Samenvatting
Open data is ruw en vuil
Gebruik een processing pipeline en/of white board architectuur om het schoon en relevant te maken
De techniek achter open data
By Joost Cassee
De techniek achter open data
Gastcollege gegeven op 21 september 2015 voor de Open Data Course van de Haagse Hogeschool.
- 1,245