La Tercera es la Vencida

como llevar a cabo un scraping "exitoso"

¿Qué es posible scrapear?

Todo, pero...

¿Qué es posible scrapear?

  • Páginas web en general
    • Blogs
    • Periódicos
    • RRSS (facebook, instagram, twitter, etc.)
    • E-comerce

¿Para qué?

Recolectar información:

  • Alimentar bases de datos
  • Monitorizar
  • Extracción de contenido (cards)
  • Analizar el estado de un sitio:
    • Detección de urls
    • Manejo del SEO
    • Detección de cambios
  • Muchos otros

¿Quienes lo usan?

 

  • Marketer@s
  • Periodistas
  • Científic@s
  • Economistas
  • Inversionistas

 

Si usuarios no técnicos sabrían emplearla tendrían mucha ventaja con respecto a sus competidores

¿Qué necesito saber?

 

  • Como funcionan HTTP
  • Como funcionan las cookies
  • Como funcionan los navegadores
  • HTML y JavaScript
  • Lenguaje que te permita hacer WS

 

Scrapeando

Netflix

Evita quedar bloquead@

  • Utiliza distintos User-Agents
  • Reduce tu velocidad intencionalmente
  • Usa un pool de proxies
  • Limpia tus cookies

La tercera es la vencida, como llevar a cabo un scraping "exitoso"

By Mauricio Matias

La tercera es la vencida, como llevar a cabo un scraping "exitoso"

  • 333