E Visualização de Dados e esses paranauês do PI IV aí
ago/2015
Vinicius de Carvalho | [TGL] Dogg
• tgl_dogg@outlook.com
• github.com/tgl-dogg
• facebook.com/TGL_Dogg
Foto por Marcelo Hashimoto
(sdds Hashimoto sz)
[TGL] Dogg | Vini Dogg LL
(perdi o jogo)
Fazer um Web Crawler é mais fácil do
que pronunciar "web crawler"!
(bem, não exatamente)
https://twitter.com/felipesmith1618/status/570256275159830528
http://produto.mercadolivre.com.br/MLB-683967753-quadro-tela-painel-mona-cat-romero-britto-_JM
http://www.shopbritto.com/
http://www.shopbritto.com/collections/special-offers
Expressões Regulares!!1!1!onze!1!1!
Mas não se esqueça dos filtros! (allow, deny, etc.)
Expressões Regulares!!1!1!onze!1!1!
Só que não.
http://migre.me/rlK2z
XPath é o cara!
developers = response.xpath(
'//div[@class="details_block"]/a
[contains(@href, "http://store.steampowered.com/search/?developer")]
/text()')Python:
Fazer na raça não é tão difícil!
É você quem determina os dados dos quais precisa
Três tipos de coisas são essenciais no seu banco de dados:
Deixe a meta de dados em aberto e, quando atingir a meta, dobre a meta!
Qualquer um!
(não, sério, qualquer um mesmo)
Abstrair uma série de dados de modo a facilitar a interpretação do visualizador
http://www.statmethods.net/graphs/pie.html
http://www.snapsurveys.com/support/worksheets/putting-counts-percentages-bar-chart/
https://github.com/pviotti/osm-viz
http://www.123rf.com/photo_17982993_social-media-concept-in-word-tag-cloud-on-white-background.html
Qualquer pesquisinha na internet retorna um MONTE de técnicas criativas para visualizar dados!
http://elidebemcomavida.blogspot.com.br/2013/09/lingua-portuguesa-e-algumas-expressoes.html
Crawleie um site grande, como a wikipedia.
Ou o facebook.
Ou o que seja.
Lembre-se: mais é mais!
Você pode deixar o seu crawler rodando durante a noite, durante o trabalho, durante a aula, durante o banho, durante a visita de parentes chatos, etc...
...mas tome cuidado com alguns casos especiais.
store.steampowered.com/app/100410/www.nevercenter.com/www.nevercenter.com/www.nevercenter.com/www.nevercenter.com/www.nevercenter.com/www.nevercenter.com/www.nevercenter.com/www.nevercenter.com/camerabag
Tire dois dias do seu feriado e voilà, você tem um crawler.
Não, sério, dá pra fazer em dois dias, na moralzinha.
A parte de deixar o crawler rodando é a mais fácil do PI IV, e uma das mais divertidas também.
Modelamento de dados é uma das partes mais chatas (implementar o banco é sempre mais legal), mas é muito importante para evitar falhas no projeto.
Uma falha simples no seu modelamento e você pode perder todas as informações crawleadas e ter que começar o processo todo de novo!
Faça backup. Ponto.
Se tudo der certo, faça em larga escala depois!
http://pt-br.chavesdooito.wikia.com/wiki/Seu_Madruga