Cijfervalkuilen

en hoe ze te vermijden

Maarten Lambrechts

Valkuilen in

metadata

statistiek

visualisatie

 

VALKUILEN

Metadata

"... in Brussels, nearly 62 percent is of foreign origin"

"We zien voor het eerst in vele jaren dat er een kentering is. Het algemene armoederisico daalt van 11,1 naar 10,3 procent."

"...gegevens van de studiedienst die werden verzameld in 2014 en dus nog niet beïnvloed konden zijn door het beleid van deze regering."

"...en dat de daling niet statistisch significant is."

Metadata = data over de data

 

Verzameld door wie?

Hoe verzameld?

Waarom verzameld?

Wanneer verzameld?

Gebruikte definities?

Metadata

 

Bepalen validiteit van conclusies

Omschrijven beperkingen op het gebruik van de data

Bepalen vergelijkbaarheid

Zonder de juiste eenheden zijn cijfers betekenisloos

 

VALKUILEN

Statistieken

Procenten  & procentpunten

"Vorig jaar was 30 % van het middenkader een vrouw. Dit jaar is dat 40 %. Het aandeel vrouwen is met 10 % gestegen!"

Dat is een toename met 10 procentpunten

Of:

(40 - 30)/30 = 1/3 = 33.3% toename

% - % = procentpunt

(nieuw - oud)/oud = % verandering

Da's niet normaal

Top 5 EU elektriciteitsconsumenten

Land
 
1. Duitsland
2. Frankrijk
3. VK
4. Italië
5. Spanje
Elektriciteits-consumptie (Gwh)
517.377
442.372
303.903
286.027
232.515

Proficiat: een bevolkingsranglijst!

Deel nu door het bevolkingsaantal, aub

Top 5 EU elektriciteitsconsumenten

Land
 
1. IJsland
2. Noorwegen
3. Finland
4. Zweden
5. Luxemburg
Elektriciteits-consumptie (Mwh/cap)
49,7
21,5
14,7
12,6
10,6

Speciaal van toepassing op kaarten

Maak cijfers vergelijkbaar (=normaliseer):

per capita, per oppervlakte, ...

Gemiddelde vs mediaan

Marc Coucke wandelt een café binnen...

De mediaan?

Rangschik de data: de mediaan is de middelste waarde

De mediaan is minder gevoelig voor uitbijters dan het gemiddelde. Gebruik hem!

Verdelingen

Summary statistics rarely describe somebody's lived experience and never ring true for the whole population

Data zijn veel meer dan gemiddeldes

Gebruik de verdeling waar je kan

Correlatie vs  causaliteit

"...omdat zowel de Vlaamse als de federale regering het geweer van schouder heeft veranderd en heeft ingezet op werk."

Correlatie. Is. Geen. Causaliteit.

Betrouwbaarheids-

intervallen

"De foutenmarge bedraagt  3,2 procent."

Onzekerheid is inherent aan enquêteresultaten. Hou rekening met de foutenmarge

Grote & kleine kansen

Zo bleek uit het onderzoek dat mensen die drie sneetjes spek per dag eten 20 procent meer kans hebben op darmkanker.

Van elke 10.000 mensen in de studie die elke dag 21 gram rood en verwerkt vlees eten - ongeveer de hoeveelheid van één sneetje spek - werd bij 40 darmkanker vastgesteld. Bij wie 76 gram per dag eet, stijgt dat aantal naar 48.

1 sneetje => 40/10.000 = 0.4%

3 sneetjes => 48/10.000 = 0.48%

+0.08 procentpunt

+20% van een kleine kans is nog altijd een kleine kans

10.000 besmettingen

Gewone variant:  10.000*0,006 = 60 doden

Britse variant= 10.000*0,009 = 90 doden

30 doden extra

Maar relatief kleine verschillen kunnen wel betekenisvol zijn

Appels & peren

Vergelijk

regio's met regio's

maanden met maanden

appels met appels

peren met peren

Exponentiële groei

Exponentieel

loodrecht omhoog

Procent & procentpunten

Da's niet normaal

Gemiddelde vs mediaan

Verdelingen

Correlatie vs causaliteit

Betrouwbaarheidsintervallen

Grote & kleine kansen

Appels en peren

Exponentiële groei

VALKUILEN

Visualisatie

Hou de taarten voor het dessert

Knip geen staven

Respecteer de proporties

Knip geen tijdsassen

Vergelijk appelen met appelen

Schaal cirkels op basis van oppervlakte

Doe geen 3D

Vermijd dubbele assen

Alle kaarten liegen

Hou taarten voor het dessert

Knip geen staven

Knip geen tijdsassen

Respecteer de proporties

Vergelijk appelen met appelen

Schaal cirkels op basis van oppervlakte

Doe geen 3D

Vermijd dubbele assen

Alle kaarten liegen

Bedankt!

slides.com/maartenzam/cijfervalkuilen-mediahuis