Tool per raccogliere, pulire e analizzare

i dati

Andrea Nelson Mauro | @nelsonmau

Cortina tra le righe @ 11 luglio 2016 - Cortina D'Ampezzo

Network europeo di data giornalisti

  • Inchieste
  • Altri progetti
    • Sport data journalism (blogf1)
    • Associazione onData (sito)
    • Datamediahub (blog)

Alessio, Andrea, Andrea, Carlo, Donata, Elena, Gianluca, Mara, Nicola, ...

Scraping

Tecnica informatica che consiste nel "grattare" ed estrarre dati da un sito web mediante programmi software

Procedura necessaria quando manca un dataset già costruito in formato "machine readable", ossia processabile da un computer

Immagini

Pagine html

File Pdf

Pulire i dati

Cosa significa?
I dati devono avere una formattazione corretta

  • Qual è il formato dei numeri? Virgole e punti
  • Le intestazioni sono presenti
  • Maiuscole e minuscole: occhio al case
  • Celle vuole: una cella vuota non è 0, è NULL
  • Disaggrega i dati, rendili granulari

Una checklist di controlli

Pulire

OpenRefine.org

  • Carichi i dati
  • Li vedi in formato tabellare
  • Segui la checklist

Analizzare

Usa i fogli di calcolo

  • Excel
  • OpenOffice Calc

https://goo.gl/U7zgBf

Kawabonga!

onData

www.ondata.it

Andrea Nelson Mauro

nelsonmau@dataninja.it

@nelsonmau

Icon made by Freepik from www.flaticon.com

Scraping da pdf

Tabula

ScraperWiki

Tools

per lo scraping da html

Data Scraper: estensione di Chrome

Table Capture: estensione di Chrome

Credits: Flickr/the-magic-tuba-pixie

Tools

per lo scraping da immagini

OCR Online tool

Made with Slides.com