Web Mining

Joffily Ferreira

Marianna Veríssimo

O que é Web Mining?

"Web Mining é o uso de técnicas de data mining para descobrir e extrair automaticamente informações relevantes dos documentos e serviços ligados a Internet”.

Sandra De Amo

Aplicações

  • Pesquisa na Web - Google, Yahoo.

  • Vertical Search - Wikio, PicSearch.

  • Recomendações - Amazon.com, Americanas.

  • Publicidades - Google, Yahoo.

Divisão

  • Mineração de Conteúdo

  • Mineração de Uso

  • Mineração de Estrutura

Mineração de Conteúdo

A mineração de conteúdo trata de descobrir informações úteis a partir dos documentos e serviços da Web.

O conteúdo da Web constituísse de texto, hipertexto, multimídia, metadados, etc.

Existem 3 tipos de dados de texto da web: Estruturados – tabelas de banco de dados, Semi-estruturados – HTLM e os não-estruturados – textos comuns.  

Mineração de Uso

A mineração de uso tenta prever o comportamento do usuário quando está navegando pela web.

Nesse processo são usados dados secundários  provenientes da interação
do usuário com a Web.

Tais como: Registros de Log de servidores de acesso a Web, registros de logs de servidores proxy, perfis de usuários, transações do usuário, consultas do usuário, etc. 

Mineração de Estrutura

Na mineração de estrutura o interesse está em descobrir informações que estão implícitas em páginas que estão interligadas - através de hiperlinks. 

 

Etapas

  • Recuperação

  • Seleção de Informação

  • Generalização

  • Análise dos dados

Recuperação

É a primeira étapa no processo de web mining. A recuperação de documentos é uma etapa automatizada que busca documentos relevantes para o descobrimento de conhecimento. Nesta etapa não há uma preocupação sobre o conteúdo colhido ou sobre padrões de conteúdo, estes são tratados como um aglomerado de palavras, frases, links, etc.

Seleção de Informação

Nesta etapa os documentos precisam passar por um tipo de seleção (tratamento) afim de que as informações colhidas na (R.D) comecem a fazer sentido. No tratamento dos dados, os algoritmos de aprendizagem de máquina podem ser usados para encontrar e extrair as partes relevantes dos documentos. Os padrões também podem ser extraídos com algoritmos específicos para cada site, mas isto não é muito comum.

Generalização

Sendo uma das etapas mais relevantes de todo o processo de Web Mining, a generalização se da por meio da aplicação dos algoritmos de Web Mining. Sendo eles: 1) Algoritmos de aprendizagem de máquina 2) Agrupamentos de clustering 3) Regras de associação

Análise dos dados

Ao alcançar esta etapa podemos dizer que já temos em mãos os padrões encontrados na generalização e a partir dai os analistas utilizam ferramentas para visualizar e validar o conhecimento descoberto nas outras fases. Existem sistemas que permitem utilizar consultas estruturadas para visualizar as informações.

Algoritmo

Um dos mais famosos algoritmos utilizados na web mining, é o PageRank.

Esse algoritmo tem por objetivo calcular a relevância de páginas. 

O Google utiliza muito esse tipo de algoritmo em suas buscas. 

Web Mining Vs. Data Mining

A Web Mining pode ser entendida com uma extensão da Data Mining.

No Data Mining, os dados são persistidos em um banco de dados. Na Web Mining, os dados estão na web e podem ou não ser colocados em um BD.

Os dados no DM são estruturados, no WM os dados podem ou não ser estruturados.

A descoberta de conhecimento se dá de forma análoga para os dois tipos de mineração. 

Mineração de conteúdo
+
Mineração de Estrutura

  • Google
  • Yahoo
  • Bing

Mineração de uso

  • Amazon
  • Americanas
  • Facebook

Exemplo da primeira etapa

Obrigado

"Busquem o conhecimento". Bilu, E.T

Referências

DE AMO, Sandra. Curso de Data Mining. Disponível em: <http:// http://www.deamo.prof.ufu.br/arquivos/Aula17.pdf> Acesso em: 07 de março de 2016.
R. Kosala, H. Blockeel :Web Mining Research : A Survey. SIGKDD Explorations, Vol. 2, Issue 1, July 2000.
DE AMO, Sandra. Técnicas de Mineração de Dados. Faculdade de Computação. Universidade Federal de Uberlândia. Uberlândia - Minas Gerais. Brasil.

MARINHO, Leandro Balby. GIRARDI, Rosario. Mineração na Web. UFMA – Universidade Federal do Maranhão. São Luís -  Maranhão. Brasil.

Introduction to Web Mining. Disponível em: <https://www.google.com.br/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=0ahUKEwiJj5LUwLbLAhXKgZAKHdYQBIUQFggiMAA&url=http%3A%2F%2Finfolab.stanford.edu%2F~ullman%2Fmining%2Fpdf%2FwebMiningOverview.pdf&usg=AFQjCNG0RQ8_qEinb2cV1St1NDR1GvTY2w> Acesso em: 07 de março de 2016.

Web Mining

By Marianna Veríssimo