Diploma en Periodismo de Investigación

Olaya Argüeso - 14 de agosto 2021

@oargueso

Extraer datos de PDF's 

PDF = Portable Document Format

Existen dos tipos de PDF:

1. Escaneados

2. Generados electrónicamente

PDF = Portable Document Format

Escaneados:

  • Son una imagen, así que no se pueden "cortar y pegar"
  • Herramientas OCR (Reconocimiento Óptico de Caracteres): ABBY FineReader (de pago)

 

PDF = Portable Document Format

Generados electrónicamente:

  • Son más o menos "escrapeables"
  • Pueden tener tablas o no

PDF = Portable Document Format

Generados electrónicamente:

  • Herramientas para extraer los datos: ABBY (de pago) - Tabula (gratis)

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Otras herramientas gratuitas:

  • cometdocs.com:

PDF = Portable Document Format

Otras herramientas gratuitas:

PDF = Portable Document Format

Otras herramientas gratuitas:

  • cometdocs.com:

PDF = Portable Document Format

Otras herramientas gratuitas:

  • cometdocs.com:

PDF = Portable Document Format

Otras herramientas gratuitas:

  • cometdocs.com:

PDF = Portable Document Format

Para evitar dar nuestro email personal:

PDF = Portable Document Format

Otras herramientas gratuitas:

¿Preguntas?

Introducción al periodismo de datos - #4 Scraping de PDF's

By Olaya Argüeso Perez

Introducción al periodismo de datos - #4 Scraping de PDF's

Máster El Mundo

  • 128