Cijfervalkuilen

en hoe ze te vermijden

@maartenzam

Seminarie middenkader Vlaamse overheid

Genk

14 mei 2019

Valkuilen in

metadata

statistiek

visualisatie

 

VALKUILEN

Metadata

"... in Brussels, nearly 62 percent is of foreign origin"

"We zien voor het eerst in vele jaren dat er een kentering is. Het algemene armoederisico daalt van 11,1 naar 10,3 procent."

"...gegevens van de studiedienst die werden verzameld in 2014 en dus nog niet beïnvloed konden zijn door het beleid van deze regering."

"...en dat de daling niet statistisch significant is."

Metadata = data over de data

 

Verzameld door wie?

Hoe verzameld?

Waarom verzameld?

Wanneer verzameld?

Gebruikte definities?

Metadata

 

Bepalen validiteit van conclusies

Omschrijven beperkingen op het gebruik van de data

Bepalen vergelijkbaarheid

VALKUILEN

Statistieken

Procenten  & procentpunten

"Vorig jaar was 30 % van het middenkader een vrouw. Dit jaar is dat 40 %. Het aandeel vrouwen is met 10 % gestegen!"

Dat is een toename met 10 procentpunten

Of:

(40 - 30)/30 = 1/3 = 33.3% toename

% - % = procentpunt

(nieuw - oud)/oud = % verandering

Da's niet normaal

Top 5 EU elektriciteitsconsumenten

Land
 
1. Duitsland
2. Frankrijk
3. VK
4. Italië
5. Spanje
Elektriciteits-consumptie (Gwh)
517.377
442.372
303.903
286.027
232.515

Proficiat: een bevolkingsranglijst!

Deel nu door het bevolkingsaantal, aub

Top 5 EU elektriciteitsconsumenten

Land
 
1. IJsland
2. Noorwegen
3. Finland
4. Zweden
5. Luxemburg
Elektriciteits-consumptie (Mwh/cap)
49,7
21,5
14,7
12,6
10,6

Speciaal van toepassing voor kaarten

Maak cijfers vergelijkbaar (=normaliseer):

per capita, per oppervlakte, ...

Gemiddelde vs mediaan

Marc Coucke wandelt een café binnen...

De mediaan?

Rangschik de data: de mediaan is de middelste waarde

De mediaan is minder gevoelig voor uitbijters dan het gemiddelde. Gebruik hem!

Gebruik verdelingen

Summary statistics rarely describe somebody's lived experience and never ring true for the whole population

Gebruik indien mogelijk verdelingen, deze beschrijven de volledige range aan leefomstandigheden van mensen

Data zijn veel meer dan gemiddeldes

Gebruik de verdeling waar je kan

Correlatie is geen  causaliteit

"...omdat zowel de Vlaamse als de federale regering het geweer van schouder heeft veranderd en heeft ingezet op werk."

Correlatie. Is. Geen. Causaliteit.

Betrouwbaarheids-

intervallen

"De foutenmarge bedraagt  3,2 procent."

Onzekerheid is inherent aan enquêteresultaten. Hou rekening met de foutenmarge

Grote & kleine kansen

"Elke dag spek eten verdubbelt de kans op darmkanker"

+ 100%!

0,0002 % kans naar 0,0004 %

(+ 0,0002 procentpunten)

2 x een kleine kans is nog altijd een kleine kans

Maar relatief kleine verschillen kunnen wel betekenisvol zijn

Procent & procentpunten

Da's niet normaal

Gemiddelde vs mediaan

Gebruik verdelingen

Correlatie is geen causaliteit

Betrouwbaarheidsintervallen

Grote & kleine kansen

VALKUILEN

Visualisatie

Hou de taarten voor het dessert

Knip geen staven

Knip geen tijdsassen

Schaal cirkels op basis van oppervlakte

Doe geen D3

Vermijd dubbele assen

Alle kaarten liegen

Hou taarten voor het dessert

Knip geen staven

Knip geen tijdsassen

Schaal cirkels op basis van oppervlakte

Doe geen 3D

Vermijd dubbele assen

Alle kaarten liegen

Bedankt!

slides.com/maartenzam/cijfervalkuilen