Scrapy






Tiago Gonçalves
Vizir Software Studio


O que é?


Scrapy é um framework em python para 
rastrear sites e extrair dados estruturados.

Por quE scrapy?


  • Simples
  • Produtivo
  • Rápido
  • Extensível
  • Portável, open source, 100% python
  • Excelente documentação
  • Estável
  • Comunidade ativa
  • Suporte comercial

    Passos


    • Escolha um site
    • Defina os dados que você deseja extrair

    • Escreva um spider para extrair os dados

    • Rode o spider para extrair os dados


      Linha de comando


      • Criar um projeto com estrutura padrão
      • Executar um spider
      • Shell interativo
      • Validar spider
      • Deploy
      • Outros

        funcionalidades básicas


        • Descobrir e extrair dados armazenados em formato HTML, XML ou CSV.
        • Salvar dados extraídos nos formatos JSON, XML  ou CSV;
        • Definir regras em expressão regular de quais endereços irá navegar;
        • Extrai dados das páginas muito rápido com XPATH;
        • Criar classes para processar os itens extraídos;
        • Download automático de imagens;
        • Salvar dados no disco local, amazon s3 ou ftp.

        Não seja banido


        • User-agent
        • Cookies
        • Delay aleatório
        • Proxy
        • HTTP headers

        serviços

        • Logging
        • Estatísticas
        • Envio de e-mail
        • Telnet
        • Web Service

        ARQUITETURA





        tudo pode ser extendido ou substituído




        FIM




        Tiago de Assis Gonçalves
        Vizir Software Studio

        Scrapy (Portuguese)

        By Tiago

        Scrapy (Portuguese)

        Scrapy in five minutes. (Portuguese)

        • 3,592