Scrapy
Tiago Gonçalves
Vizir Software Studio
O que é?
Scrapy é um framework em python para
rastrear sites e extrair dados estruturados.
Por quE scrapy?
-
Simples
- Produtivo
- Rápido
- Extensível
- Portável, open source, 100% python
-
Excelente documentação
- Estável
-
Comunidade ativa
-
Suporte comercial
Passos
-
Escolha um site
-
Defina os dados que você deseja extrair
-
Escreva um spider para extrair os dados
-
Rode o spider para extrair os dados
Linha de comando
-
Criar um projeto com estrutura padrão
-
Executar um spider
-
Shell interativo
-
Validar spider
-
Deploy
-
Outros
funcionalidades básicas
-
Descobrir e extrair dados armazenados em formato HTML, XML ou CSV.
- Salvar dados extraídos nos formatos JSON, XML ou CSV;
- Definir regras em expressão regular de quais endereços irá navegar;
- Extrai dados das páginas muito rápido com XPATH;
-
Criar classes para processar os itens extraídos;
- Download automático de imagens;
- Salvar dados no disco local, amazon s3 ou ftp.
Não seja banido
- User-agent
- Cookies
- Delay aleatório
- Proxy
- HTTP headers
serviços
- Logging
- Estatísticas
- Envio de e-mail
- Telnet
- Web Service
tudo pode ser extendido ou substituído
FIM
Tiago de Assis Gonçalves
Vizir Software Studio