Introducción al

Periodismo de datos

18 al 22 de diciembre, 2017

Olaya Argüeso @oargueso

Scraping, o cómo extraer datos de PDF's y páginas web

PDF = Portable Document Format

Existen dos tipos de PDF:

1. Escaneados

2. Generados electrónicamente

PDF = Portable Document Format

Escaneados:

Son una imagen, así que no se pueden "cortar y pegar"
Herramientas OCR (Reconocimiento Óptico de Caracteres): ABBY FineReader (de pago)

PDF = Portable Document Format

Generados electrónicamente:

Son más o menos "escrapeables"
Pueden tener tablas o no

PDF = Portable Document Format

Generados electrónicamente:

Herramientas para extraer los datos: ABBY / DeskUNPDF (de pago) - Tabula (gratis)

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Otras herramientas gratuitas:

cometdocs.com
zamzar.com
pdftoexcelonline.com

Mailinator

HTML = Hyper Text Markup Language

Herramientas para extraer tablas de páginas web:

Extensiones: se añaden a nuestro navegador (Dafizilla Table2Clipboard para Firefox / Table Capture para Chrome)

HTML = Hyper Text Markup Language

Herramientas para extraer tablas de páginas web:

Hojas de cálculo de Google: importHTML("url", "table", nº de tabla)

HTML = Hyper Text Markup Language

Herramientas para extraer tablas de páginas web:

Import.io (gratuita): permite instruir a la aplicación para mostrarle el tipo de datos que nos interesan

https://www.youtube.com/watch?v=bcqxBfOp6ts

¿Preguntas?

Introducción al periodismo de datos #7 - Scraping de PDF's y webs

By Olaya Argüeso Perez

Introducción al periodismo de datos #7 - Scraping de PDF's y webs

Máster EFE

Olaya Argüeso Perez

Data Journalism Consultant & Trainer

Introducción al

Periodismo de datos

Scraping, o cómo extraer datos de PDF's y páginas web

PDF = Portable Document Format

PDF = Portable Document Format

PDF = Portable Document Format

PDF = Portable Document Format

PDF = Portable Document Format

PDF = Portable Document Format

PDF = Portable Document Format

PDF = Portable Document Format

PDF = Portable Document Format

PDF = Portable Document Format

PDF = Portable Document Format

HTML = Hyper Text Markup Language

HTML = Hyper Text Markup Language

HTML = Hyper Text Markup Language

¿Preguntas?

Introducción al periodismo de datos #7 - Scraping de PDF's y webs

More from Olaya Argüeso Perez