Presentations
Templates
Features
Teams
Pricing
Log in
Sign up
Log in
Sign up
Menu
Scrapy
Tiago Gonçalves
Vizir Software Studio
O que é?
Scrapy é um framework em python para
rastrear sites e extrair dados estruturados.
Por quE scrapy?
Simples
Produtivo
Rápido
Extensível
Portável, open source, 100% python
Excelente documentação
Estável
Comunidade ativa
Suporte comercial
Passos
Escolha um site
Defina os dados que você deseja extrair
Escreva um spider para extrair os dados
Rode o spider para extrair os dados
Linha de comando
Criar um projeto com estrutura padrão
Executar um spider
Shell interativo
Validar spider
Deploy
Outros
funcionalidades básicas
Descobrir e extrair dados armazenados em formato HTML, XML ou CSV.
Salvar dados extraídos nos formatos
JSON,
XML ou CSV;
Definir regras em expressão regular de quais endereços irá navegar;
Extrai dados das páginas muito rápido com XPATH;
Criar classes para processar os itens extraídos;
Download automático de imagens;
Salvar dados no disco local, amazon s3 ou ftp.
Não seja banido
User-agent
Cookies
Delay aleatório
Proxy
HTTP headers
serviços
Logging
Estatísticas
Envio de e-mail
Telnet
Web Service
ARQUITETURA
tudo pode ser extendido ou substituído
FIM
Tiago de Assis Gonçalves
@legiao
Vizir Software Studio
Scrapy (Portuguese)
By Tiago
Made with Slides.com
Scrapy (Portuguese)
Scrapy in five minutes. (Portuguese)
3,598
Tiago
More from
Tiago