Seleção de Características

Débora Deslandes

Guilherme Lucindo

Izabela Borges

Leonardo Decina

Sumário

Introdução
- O que é seleção de características?
TécnicaS
Modelos
- MÉTODOS
  - Como e quando usar?
  - Vantagens e Desvantagens
  - Exemplos
Conclusão

Introdução

Na maioria das aplicações reais de classificação, as bases de dados contêm um grande número de caraterísticas, como, por exemplo, nome, identidade, endereço, etc.

Entretanto, na maioria dos casos, grande parte destas caraterísticas são irrelevantes e/ou redundantes. Então torna-se necessária a aplicação de seleção das características.

O que é seleção de características?

A seleção de características é um processo onde um espaço de dados é transformado em um espaço de características.

O conjunto sofre uma redução de dimensionalidade, de modo a reter dentre todos os atributos da base, aqueles mais relevantes do ponto de vista da hipótese a ser provada ou pergunta a ser respondida.

Técnicas

Existem inúmeras técnicas para a se realizar a seleção de variáveis, sendo estas categorizadas como métodos dependentes do modelo (Model-Based) e métodos independentes do modelo (“Model-Free”) .

Dentre os métodos dependentes do modelo podem-se mencionar técnicas baseadas em redes neurais, em modelos neuro-fuzzy e em algoritmos genéticos. No caso dos métodos independentes do modelo há métodos estatísticos, Análise de Componentes Principais (ACP), correlação e entropia.

Modelos

Dentre os modelos e métodos a serem abordados nesta apresentação, temos o método mRMR (mínima-Redundância Máxima-Relevância):

E seus métodos de redução de dados vertical:

KDD (KNOWLEDGE DISCOVERY IN DATABASES)

MODELO WRAPPER
MÉTODO DE FILTRO
MÉTODO HÍBRIDO

KDD

O KDD é um processo não trivial, de extração de informações implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um banco de dados.

FAYYAD et al. (1996)

O processo de busca de conhecimento passa pelos passos: seleção, pré-processamento e limpeza, transformação, mineração de dados (data mining) e interpretação/avaliação.

O KDD compreende, na verdade, todo o ciclo que o dado percorre a té virar informação.

O processo é interativo, pois há a necessidade de intervenção, e iterativo, por ser uma sequência finita de operações com resultados dependentes das operações que a precedem.

KDD

Modelo Wrapper

GERAÇÃO DO SUBCONJUNTO DE CARACTERÍSTICAS

MODELO DE

INFERÊNCIA

MODELO DE

INFERÊNCIA

TODAS AS CARACTERÍSTICAS

Desempenho

Subconjunto ótimo

de características

Características

Avaliação

Método Wrapper avalia os subcon-juntos de atributos, que ao contrário dos métodos de filtro, detectam as interações/relações entre atributos.

A seleção de subconjunto acontece em conjunto com o algoritmo de aprendizagem, ou seja, o subconjunto se modela e se melhora. Cada subconjunto gerado pela seleção é avaliado pelo contexto da aprendizagem.

Como e Quando usar?

Forward selection: Começa com zero atributos candidatos, e é feito o teste de seleção de atributo candidato de acordo com o modelo do problema.

Backward selection: Começa com todos os atributos candidatos, e é feito o teste de eliminação de atributos de acordo com o modelo do problema.

Não deve ser usado com algoritmos de tempo de compilação muito grande.

Vantagens x DESVANTAGENS

Fornece um subconjunto de maior acurácia;
Tem a maior otimização para problemas de predição.

Quando o número de características é insufi-ciente, o risco de adap-tação aumenta;
Quando o número de variáveis é grande, o tempo de compilação se torna muito alto.

Método de Filtro

GERAÇÃO DO SUBCONJUNTO DE CARACTERÍSTICAS

MODELO DE

INFERÊNCIA

TODAS AS CARACTERÍSTICAS

Desempenho

Subconjunto ótimo

de características

Métodos de filtro selecionam atributos independente de modelo, baseados apenas em características gerais correlacionadas à característica a ser predita.

Os métodos de filtragem suprimem os atributos menos interessantes. Os demais atributos serão parte de um modelo de regressão utilizado para classificar ou prever dados.

Como e Quando usar?

O procedimento de seleção do subconjunto é independente do algoritmo de aprendizagem, o que faz esse método ser utilizado apenas como pré-processamento da base de dados.

Utilizam Foward selection e Backward elimination.

Vantagens x DESVANTAGENS

Métodos de filtro são surpreendentemente efetivos em tempo de compilação;
E robusto para overfitting.

Métodos de filtro tendem a selecionar atributos redundantes;
Não considera a relação entre variáveis;

Método Híbrido

GERAÇÃO DO SUBCONJUNTO DE CARACTERÍSTICAS

MODELO DE

INFERÊNCIA
+

DESEMPENHO

TODAS AS CARACTERÍSTICAS

Subconjunto ótimo

de características

Características

Avaliação

Os métodos híbridos (embedded) foram propostos recentemente de um modo à combinar as vantagens de ambos os métodos anteriores.

O algoritmo de aprendizagem toma proveito do próprio processo de seleção de atributos e executa simul-taneamente a seleção de características e classificação.

Como e Quando usar?

Métodos híbridos diferem de outros métodos de seleção de características pelo modo como a seleção e a aprendizagem interagem. Esses métodos aproximam as soluções para os problemas de minimização.

Utilizam Foward selection e Backward elimination.

Em métodos híbridos a aprendizagem e a seleção não podem ser executadas em separado, inviabilizando sua utilização com árvores de decisão.

Vantagens x DESVANTAGENS

Combinação das van-tagens dos métodos Wrapper e Filtro.

Seleção e aprendizagem são sempre executadas em conjunto;
Não pode ser utilizado em árvores de decisão.

Algoritmos

Modelo Wrapper: Usado com algoritmos genéticos para o problema de Polimorfismo de nucleotídeo único.

Método Filtro: Usado no teste de Welch, para reconhecimento de padrão no estudo do Alzheimer.

Método híbrido: Geralmente usado para a solução de problemas que utilizam microarrays em conjunto com algoritmo genético.

Conclusão

A seleção de características é muito importante pois diminui a quantidade de características avaliadas na aprendizagem de máquina e nos processos que forem ser realizados. Permite uma maior clareza dos dados facilitando a análise.

A definição dos métodos de seleção de características utilizado varia de acordo com o problema em mãos, a quantidade de características relevantes e o ruído de cada conjunto de dados.

Dúvidas?

Contato

DÉBORA DESLANDES

  debora.deslandes@sga.pucminas.br

GUILHERME LUCINDO

  guilherme.lucindo@sga.pucminas.br

IZABELA Borges

  izabela.borges@sga.pucminas.br

LEONARDO DECINA

  leonardo.decina@sga.pucminas.br

Seleção de Características

Débora Deslandes

Guilherme Lucindo

Izabela Borges

Leonardo Decina

Sumário

Introdução

O que é seleção de características?

TécnicaS

Modelos

MÉTODOS

Como e quando usar?

Vantagens e Desvantagens

Exemplos

Conclusão

Introdução

O que é seleção de características?

Técnicas

Modelos

KDD (KNOWLEDGE DISCOVERY IN DATABASES)

MODELO WRAPPER

MÉTODO DE FILTRO

MÉTODO HÍBRIDO

KDD

KDD

Modelo Wrapper

Como e Quando usar?

Vantagens x DESVANTAGENS

Método de Filtro

Como e Quando usar?

Vantagens x DESVANTAGENS

Método Híbrido

Como e Quando usar?

Vantagens x DESVANTAGENS

Algoritmos

Conclusão

Dúvidas?

Contato

DÉBORA DESLANDES

GUILHERME LUCINDO

IZABELA Borges

LEONARDO DECINA

Seleção de Características - IA

More from Izabela Borges