Determinação da origem de documentos impressos E técnicas de Deep-Learning

Robson Cruz

Milton Hirokazu Shimabukuro

Contextualização

Mesmo em um mundo digitalizado, muitos setores da sociedade se utilizam de impressoras e documentos impressos em suas operações.

Existem situações em que deseja-se saber a origem de um determinado documento, tarefa complexa pela característica do problema.

A literatura propõe diversas soluções para esse problema:

Análise laboratorial;
Características extrínsecas [Chiang et al. 2009] ;
Marcas d'água e "yellow-dots";
Utilização das imperfeições mecânicas [Mikkilineni et al. 2004, Kee and Farid 2008, Ferreira et al. 2015,Lee and Kim 2015].

Machine Learning e Redes Neurais

Um programa de computador é dito capaz de "aprender" da experiência E em respeito a uma tarefa T e alguma medida de performance P, se sua performance em T, conforme medida por P, melhorar com experiência E.

[Mitchell 1997]

Essencialmente uma forma de estatística aplicada com uma crescente ênfase no uso de computadores para realizar complicadas funções estimativas e uma decrescente ênfase em prover intervalos de confiança sobre essas funções.

[Goodfellow et al. 1997]

Machine Learning e Redes Neurais

Perceptron

A fundamentação de redes neurais utilizada hoje veio do Perceptron [Rosenblatt 1958].

a primeira rede

É um algoritmo supervisionado para classificação binária dos dados.

MLP

A utilização de camadas ocultas para abstrair conceitos.

Uma consequência do perceptron

É capaz de realizar a aproximação de qualquer função [Hornik et al. 1989].

Redes Convolucionais

Utilizam a operação de convolução nos dados.

O começo de deep-learning

Presença de camadas de agregação.

Abordagem proposta

Um processo de treinamento utilizando pequenas redes convolucionais.

Múltiplas representações dos dados

[Ferreira et al. 2017]

Utilização de processos de early e late-fusion.

Alta abstração das características relevantes (microtexturas)

Abordagem proposta

[Ferreira et al. 2017]

Experimentos

Para facilidade de desenvolvimento realizamos uma modularização da solução, dividindo-a em três módulos:

Pré-processamento;
Extração de características;
Classificação;

Aspectos técnicos

O extrator de característica foi treinado utilizando um cluster com processadores Intel(R) Xeon(R) CPU E5-2690 0 @ 2.90GHz, trabalhando em 32 cores paralelamente

Experimentos

Aspectos técnicos

Experimentos

Pipeline

Experimentos

Inicialmente o dataset de [Ferreira et al. 2017] foi utilizado (conjuntos "a", "e" e "d" ).

Dataset

Para o propósito experimental também geramos um novo conjunto de dados:

Documentos impressos coloridos, escaneados preto e branco;
Documentos impressos por uma mesma impressora mas escaneados por dispositivos diferentes.

Exemplo de documento para extração de caracteres

Experimentos

Buscando estudar o comportamento do modelo quando exposto a diferentes condições experimentais, propusemos os seguintes testes:

A classificação individual utilizando early-fusion;
Classificação de múltiplos caracteres utilizando early-fusion;
A classificação coletiva utilizando early e late-fusion.

Testes Realizados

Para cada teste proposto, mapeamos as seguintes condições:

Utilização de diferentes proporções do dataset;
Classificação do dataset original [Ferreira et al. 2017];
Classificação do dataset Experimental.

Resultados

Observações sobre a utilização de diferentes fatias dos dados

Após testes realizados com diferentes proporções dos dados, constatou-se uma perda significativa de precisão diminuindo-se o espaço amostral

A partir desse resultado, decidiu-se pela utilização do conjunto completo para os testes

Resultados

Classificação do Dataset original

Resultados

Classificação do Dataset Experimental

Resultados

Classificação do Dataset Experimental

O ruído inserido pelo processo de conversão de cores e pela utilização de diferentes scanners teve um impacto na qualidade das amostras e consequentemente, na classificação.

Regiões de decisão antes claramente definidas se tornaram nebulosas.

Conclusões

Técnicas de deep-learning se mostram extremamente efetivas para esse tipo de problema, fato embasado pela literatura e resultados obtidos.

Eficácia de Deep-learning

Como trabalhamos com a representação e metadados das amostras, o processo de classificação possui uma maior generalização.

Conclusões

A arquitetura proposta por Ferreira se mostrou robusta e flexível, vendo que mesmo com uma perda de acurácia, ainda existe uma considerável quantidade de classificações corretas.

Flexibilidade do Modelo

Os falsos negativos e falsos positivos podem ser combatidos fazendo-se um estudo sobre a redução de ruído das amostras.

Conclusões

A diferença na implementação interna das bibliotecas utilizadas em relação as utilizadas por Ferreira teve um impacto nos resultados.

Impacto da mudança de tecnologias

Isso se deve a utilização de camadas de Reshape e aos filtros de inicialização.

Outro ponto é a imprecisão na documentação das bibliotecas originais em relação as fatos originais.

Conclusões

Com a intenção de realizar uma implementação mais próxima a de [Ferreira et al. 2017] utilizamos um algoritmo que opera de forma similar a uma busca binária.

Otimização da taxa de aprendizado

Isso resultou em uma maior acurácia e menor tempo de treinamento. Enquanto em a taxa de 0.001 não pode ser atingida, a taxa de 0.000571 apresentou melhores resultados que os testes iniciais realizados com 0.0001

Conclusões

Uma comparação entre elementos dos datasets original e experimental mostrou que dados potencialmente foram perdidos devido a sensibilidade do scanner

Sensibilidade do Scanner

Para essa constatação, realizamos uma comparação entre um documento escaneado bruto em ambos datasets e analisada a proporção de preto e branco.

Trabalhos Futuros

Otimização de hiperparâmetros - Técnicas propostas por [Jin et al. 2019];
Identificação e combate de ruído - [Moosavi-Dezfooli et al. 2015] e [Su et al. 2017];
Utilização de outros tipos de representação;

OBrigado

TCC: Determinação da origem de documentos impressos empregando técnicas de Deep-Learning

By Robson Cruz

TCC: Determinação da origem de documentos impressos empregando técnicas de Deep-Learning

Determinação da origem de documentos impressos E técnicas de Deep-Learning

Contextualização

Machine Learning e Redes Neurais

Machine Learning e Redes Neurais

Perceptron

a primeira rede

MLP

Uma consequência do perceptron

Redes Convolucionais

O começo de deep-learning

Abordagem proposta

[Ferreira et al. 2017]

Abordagem proposta

[Ferreira et al. 2017]

Experimentos

Aspectos técnicos

Experimentos

Aspectos técnicos

Experimentos

Pipeline

Experimentos

Dataset

Experimentos

Testes Realizados

Resultados

Observações sobre a utilização de diferentes fatias dos dados

Resultados

Classificação do Dataset original

Resultados

Classificação do Dataset Experimental

Resultados

Classificação do Dataset Experimental

Conclusões

Eficácia de Deep-learning

Conclusões

Flexibilidade do Modelo

Conclusões

Impacto da mudança de tecnologias

Conclusões

Otimização da taxa de aprendizado

Conclusões

Sensibilidade do Scanner

Trabalhos Futuros

OBrigado

TCC: Determinação da origem de documentos impressos empregando técnicas de Deep-Learning

More from Robson Cruz