Cijfervalkuilen
en hoe ze te vermijden
@maartenzam
Seminarie middenkader Vlaamse overheid
Genk
14 mei 2019
Valkuilen in
metadata
statistiek
visualisatie
VALKUILEN
Metadata
"... in Brussels, nearly 62 percent is of foreign origin"
"We zien voor het eerst in vele jaren dat er een kentering is. Het algemene armoederisico daalt van 11,1 naar 10,3 procent."
"...gegevens van de studiedienst die werden verzameld in 2014 en dus nog niet beïnvloed konden zijn door het beleid van deze regering."
"...en dat de daling niet statistisch significant is."
Metadata = data over de data
Verzameld door wie?
Hoe verzameld?
Waarom verzameld?
Wanneer verzameld?
Gebruikte definities?
Metadata
Bepalen validiteit van conclusies
Omschrijven beperkingen op het gebruik van de data
Bepalen vergelijkbaarheid
VALKUILEN
Statistieken
Procenten & procentpunten
"Vorig jaar was 30 % van het middenkader een vrouw. Dit jaar is dat 40 %. Het aandeel vrouwen is met 10 % gestegen!"
Dat is een toename met 10 procentpunten
Of:
(40 - 30)/30 = 1/3 = 33.3% toename
% - % = procentpunt
(nieuw - oud)/oud = % verandering
Da's niet normaal
Top 5 EU elektriciteitsconsumenten
Land |
---|
1. Duitsland |
2. Frankrijk |
3. VK |
4. Italië |
5. Spanje |
Elektriciteits-consumptie (Gwh) |
---|
517.377 |
442.372 |
303.903 |
286.027 |
232.515 |
Proficiat: een bevolkingsranglijst!
Deel nu door het bevolkingsaantal, aub
Top 5 EU elektriciteitsconsumenten
Land |
---|
1. IJsland |
2. Noorwegen |
3. Finland |
4. Zweden |
5. Luxemburg |
Elektriciteits-consumptie (Mwh/cap) |
---|
49,7 |
21,5 |
14,7 |
12,6 |
10,6 |
Speciaal van toepassing voor kaarten
Maak cijfers vergelijkbaar (=normaliseer):
per capita, per oppervlakte, ...
Gemiddelde vs mediaan
Marc Coucke wandelt een café binnen...
De mediaan?
Rangschik de data: de mediaan is de middelste waarde
De mediaan is minder gevoelig voor uitbijters dan het gemiddelde. Gebruik hem!
Gebruik verdelingen
Summary statistics rarely describe somebody's lived experience and never ring true for the whole population
Gebruik indien mogelijk verdelingen, deze beschrijven de volledige range aan leefomstandigheden van mensen
Data zijn veel meer dan gemiddeldes
Gebruik de verdeling waar je kan
Correlatie is geen causaliteit
"...omdat zowel de Vlaamse als de federale regering het geweer van schouder heeft veranderd en heeft ingezet op werk."
Correlatie. Is. Geen. Causaliteit.
Betrouwbaarheids-
intervallen
"De foutenmarge bedraagt 3,2 procent."
Onzekerheid is inherent aan enquêteresultaten. Hou rekening met de foutenmarge
Grote & kleine kansen
"Elke dag spek eten verdubbelt de kans op darmkanker"
+ 100%!
0,0002 % kans naar 0,0004 %
(+ 0,0002 procentpunten)
2 x een kleine kans is nog altijd een kleine kans
Maar relatief kleine verschillen kunnen wel betekenisvol zijn
Procent & procentpunten
Da's niet normaal
Gemiddelde vs mediaan
Gebruik verdelingen
Correlatie is geen causaliteit
Betrouwbaarheidsintervallen
Grote & kleine kansen
VALKUILEN
Visualisatie
Hou de taarten voor het dessert
Knip geen staven
Knip geen tijdsassen
Schaal cirkels op basis van oppervlakte
Doe geen D3
Vermijd dubbele assen
Alle kaarten liegen
Hou taarten voor het dessert
Knip geen staven
Knip geen tijdsassen
Schaal cirkels op basis van oppervlakte
Doe geen 3D
Vermijd dubbele assen
Alle kaarten liegen
Bedankt!
slides.com/maartenzam/cijfervalkuilen
Cijfervalkuilen
By maartenzam
Cijfervalkuilen
- 3,115