Introducción al

Periodismo de datos

18 al 22 de diciembre, 2017 

Olaya Argüeso @oargueso

Scraping, o cómo extraer datos de PDF's y páginas web

PDF = Portable Document Format

Existen dos tipos de PDF:

1. Escaneados

2. Generados electrónicamente

PDF = Portable Document Format

Escaneados:

  • Son una imagen, así que no se pueden "cortar y pegar"
  • Herramientas OCR (Reconocimiento Óptico de Caracteres): ABBY FineReader (de pago)

 

PDF = Portable Document Format

Generados electrónicamente:

  • Son más o menos "escrapeables"
  • Pueden tener tablas o no

PDF = Portable Document Format

Generados electrónicamente:

  • Herramientas para extraer los datos: ABBY / DeskUNPDF (de pago) - Tabula (gratis)

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Otras herramientas gratuitas:

  • cometdocs.com
  • zamzar.com
  • pdftoexcelonline.com

+

Mailinator

HTML = Hyper Text Markup Language

Herramientas para extraer tablas de páginas web:

  • Extensiones: se añaden a nuestro navegador (Dafizilla Table2Clipboard para Firefox / Table Capture para Chrome)

HTML = Hyper Text Markup Language

Herramientas para extraer tablas de páginas web:

  • Hojas de cálculo de Google: importHTML("url", "table", nº de tabla)

HTML = Hyper Text Markup Language

Herramientas para extraer tablas de páginas web:

  • Import.io (gratuita): permite instruir a la aplicación para mostrarle el tipo de datos que nos interesan

https://www.youtube.com/watch?v=bcqxBfOp6ts

¿Preguntas?

Introducción al periodismo de datos #7 - Scraping de PDF's y webs

By Olaya Argüeso Perez

Introducción al periodismo de datos #7 - Scraping de PDF's y webs

Máster EFE

  • 124