Introducción a Web Scrapping

con MECHANIZE

Alfonso Mancilla Alvis

  • Ingeniero Industrial, Universidad del Norte.
  • Décimo semestre Ingeniería de Sistemas, Universidad del Norte.
  • Full Stack Web Developer.
  • Ruby & RoR desde finales del 2011.
  • Gamecher, LinkU & Untutor.

¿Qué es  Web Scrapping?

Técnica para extraer información de sitios web mediante un programa informático." Wikipedia

Web Scrapping nos permitirá...

  • Simular a un usuario que navega por la web.

 

  • Automatizar la navegación web.

¿Qué necesitamos para hacer Web Scraping?

Cliente HTTP

Una librería que nos permita comunicarnos a través del protocolo Http.

- Net::HTTP (std-lib).

- Typheous.

- Mechanize.

- Rest-client.

 

Sitio Objetivo (Target)

  1. Dirección del sitio objetivo (URL) .

  2. Método del protocolo HTTP que se utiliza para acceder al sitio (get, post, put, delete).

  3. Parámetros de la petición.

Parser HTML

Programa que nos permita recorrer y manipular un documento HTML.

 

- Nokogiri.

Mechanize

"Librería escrita en ruby, que hace que sea extremadamente sencillo automatizar la interacción con sitios web."

Cliente HTTP + Parser de HTML

¡ HAGAMOS UN WEB SCRAPPER!

Introduction to Web Scrapping with Mechanize

By ammancilla

Introduction to Web Scrapping with Mechanize

  • 1,283