Máster en Periodismo de Investigación, Datos y Visualización

Olaya Argüeso @oargueso

Extraer datos de PDF's 

PDF = Portable Document Format

Existen dos tipos de PDF:

1. Escaneados

2. Generados electrónicamente

PDF = Portable Document Format

Escaneados:

  • Son una imagen, así que no se pueden "cortar y pegar"
  • Herramientas OCR (Reconocimiento Óptico de Caracteres): ABBY FineReader (de pago)

 

PDF = Portable Document Format

Generados electrónicamente:

  • Son más o menos "escrapeables"
  • Pueden tener tablas o no

PDF = Portable Document Format

Generados electrónicamente:

  • Herramientas para extraer los datos: ABBY / DeskUNPDF (de pago) - Tabula (gratis)

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Tabula

PDF = Portable Document Format

Otras herramientas gratuitas:

  • cometdocs.com:

PDF = Portable Document Format

Otras herramientas gratuitas:

  • cometdocs.com:

PDF = Portable Document Format

Otras herramientas gratuitas:

  • cometdocs.com:

PDF = Portable Document Format

Otras herramientas gratuitas:

  • cometdocs.com:

PDF = Portable Document Format

Otras herramientas gratuitas:

  • cometdocs.com:

PDF = Portable Document Format

Para evitar dar nuestro email personal:

PDF = Portable Document Format

Otras herramientas gratuitas:

  • zamzar.com:

PDF = Portable Document Format

Otras herramientas gratuitas:

  • pdftoexcelonline.com:

¿Preguntas?

Scraping de PDF's

By Olaya Argüeso Perez

Scraping de PDF's

  • 122