Na maioria das aplicações reais de classificação, as bases de dados contêm um grande número de caraterísticas, como, por exemplo, nome, identidade, endereço, etc.
Entretanto, na maioria dos casos, grande parte destas caraterísticas são irrelevantes e/ou redundantes. Então torna-se necessária a aplicação de seleção das características.
A seleção de características é um processo onde um espaço de dados é transformado em um espaço de características.
O conjunto sofre uma redução de dimensionalidade, de modo a reter dentre todos os atributos da base, aqueles mais relevantes do ponto de vista da hipótese a ser provada ou pergunta a ser respondida.
Existem inúmeras técnicas para a se realizar a seleção de variáveis, sendo estas categorizadas como métodos dependentes do modelo (Model-Based) e métodos independentes do modelo (“Model-Free”) .
Dentre os métodos dependentes do modelo podem-se mencionar técnicas baseadas em redes neurais, em modelos neuro-fuzzy e em algoritmos genéticos. No caso dos métodos independentes do modelo há métodos estatísticos, Análise de Componentes Principais (ACP), correlação e entropia.
Dentre os modelos e métodos a serem abordados nesta apresentação, temos o método mRMR (mínima-Redundância Máxima-Relevância):
E seus métodos de redução de dados vertical:
O KDD é um processo não trivial, de extração de informações implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um banco de dados.
FAYYAD et al. (1996)
O processo de busca de conhecimento passa pelos passos: seleção, pré-processamento e limpeza, transformação, mineração de dados (data mining) e interpretação/avaliação.
O KDD compreende, na verdade, todo o ciclo que o dado percorre a té virar informação.
O processo é interativo, pois há a necessidade de intervenção, e iterativo, por ser uma sequência finita de operações com resultados dependentes das operações que a precedem.
GERAÇÃO DO SUBCONJUNTO DE CARACTERÍSTICAS
MODELO DE
INFERÊNCIA
MODELO DE
INFERÊNCIA
TODAS AS CARACTERÍSTICAS
Desempenho
Subconjunto ótimo
de características
Características
Avaliação
Método Wrapper avalia os subcon-juntos de atributos, que ao contrário dos métodos de filtro, detectam as interações/relações entre atributos.
A seleção de subconjunto acontece em conjunto com o algoritmo de aprendizagem, ou seja, o subconjunto se modela e se melhora. Cada subconjunto gerado pela seleção é avaliado pelo contexto da aprendizagem.
Forward selection: Começa com zero atributos candidatos, e é feito o teste de seleção de atributo candidato de acordo com o modelo do problema.
Backward selection: Começa com todos os atributos candidatos, e é feito o teste de eliminação de atributos de acordo com o modelo do problema.
Não deve ser usado com algoritmos de tempo de compilação muito grande.
GERAÇÃO DO SUBCONJUNTO DE CARACTERÍSTICAS
MODELO DE
INFERÊNCIA
TODAS AS CARACTERÍSTICAS
Desempenho
Subconjunto ótimo
de características
Métodos de filtro selecionam atributos independente de modelo, baseados apenas em características gerais correlacionadas à característica a ser predita.
Os métodos de filtragem suprimem os atributos menos interessantes. Os demais atributos serão parte de um modelo de regressão utilizado para classificar ou prever dados.
O procedimento de seleção do subconjunto é independente do algoritmo de aprendizagem, o que faz esse método ser utilizado apenas como pré-processamento da base de dados.
Utilizam Foward selection e Backward elimination.
GERAÇÃO DO SUBCONJUNTO DE CARACTERÍSTICAS
MODELO DE
INFERÊNCIA
+
DESEMPENHO
TODAS AS CARACTERÍSTICAS
Subconjunto ótimo
de características
Características
Avaliação
Os métodos híbridos (embedded) foram propostos recentemente de um modo à combinar as vantagens de ambos os métodos anteriores.
O algoritmo de aprendizagem toma proveito do próprio processo de seleção de atributos e executa simul-taneamente a seleção de características e classificação.
Métodos híbridos diferem de outros métodos de seleção de características pelo modo como a seleção e a aprendizagem interagem. Esses métodos aproximam as soluções para os problemas de minimização.
Utilizam Foward selection e Backward elimination.
Em métodos híbridos a aprendizagem e a seleção não podem ser executadas em separado, inviabilizando sua utilização com árvores de decisão.
Modelo Wrapper: Usado com algoritmos genéticos para o problema de Polimorfismo de nucleotídeo único.
Método Filtro: Usado no teste de Welch, para reconhecimento de padrão no estudo do Alzheimer.
Método híbrido: Geralmente usado para a solução de problemas que utilizam microarrays em conjunto com algoritmo genético.
A seleção de características é muito importante pois diminui a quantidade de características avaliadas na aprendizagem de máquina e nos processos que forem ser realizados. Permite uma maior clareza dos dados facilitando a análise.
A definição dos métodos de seleção de características utilizado varia de acordo com o problema em mãos, a quantidade de características relevantes e o ruído de cada conjunto de dados.
debora.deslandes@sga.pucminas.br
guilherme.lucindo@sga.pucminas.br
izabela.borges@sga.pucminas.br
leonardo.decina@sga.pucminas.br