Robson Cruz
Milton Hirokazu Shimabukuro
Mesmo em um mundo digitalizado, muitos setores da sociedade se utilizam de impressoras e documentos impressos em suas operações.
Existem situações em que deseja-se saber a origem de um determinado documento, tarefa complexa pela característica do problema.
A literatura propõe diversas soluções para esse problema:
Um programa de computador é dito capaz de "aprender" da experiência E em respeito a uma tarefa T e alguma medida de performance P, se sua performance em T, conforme medida por P, melhorar com experiência E.
[Mitchell 1997]
Essencialmente uma forma de estatística aplicada com uma crescente ênfase no uso de computadores para realizar complicadas funções estimativas e uma decrescente ênfase em prover intervalos de confiança sobre essas funções.
[Goodfellow et al. 1997]
A fundamentação de redes neurais utilizada hoje veio do Perceptron [Rosenblatt 1958].
É um algoritmo supervisionado para classificação binária dos dados.
A utilização de camadas ocultas para abstrair conceitos.
É capaz de realizar a aproximação de qualquer função [Hornik et al. 1989].
Utilizam a operação de convolução nos dados.
Presença de camadas de agregação.
Um processo de treinamento utilizando pequenas redes convolucionais.
Múltiplas representações dos dados
Utilização de processos de early e late-fusion.
Alta abstração das características relevantes (microtexturas)
Para facilidade de desenvolvimento realizamos uma modularização da solução, dividindo-a em três módulos:
O extrator de característica foi treinado utilizando um cluster com processadores Intel(R) Xeon(R) CPU E5-2690 0 @ 2.90GHz, trabalhando em 32 cores paralelamente
Inicialmente o dataset de [Ferreira et al. 2017] foi utilizado (conjuntos "a", "e" e "d" ).
Para o propósito experimental também geramos um novo conjunto de dados:
Buscando estudar o comportamento do modelo quando exposto a diferentes condições experimentais, propusemos os seguintes testes:
Para cada teste proposto, mapeamos as seguintes condições:
Após testes realizados com diferentes proporções dos dados, constatou-se uma perda significativa de precisão diminuindo-se o espaço amostral
A partir desse resultado, decidiu-se pela utilização do conjunto completo para os testes
O ruído inserido pelo processo de conversão de cores e pela utilização de diferentes scanners teve um impacto na qualidade das amostras e consequentemente, na classificação.
Regiões de decisão antes claramente definidas se tornaram nebulosas.
Técnicas de deep-learning se mostram extremamente efetivas para esse tipo de problema, fato embasado pela literatura e resultados obtidos.
Como trabalhamos com a representação e metadados das amostras, o processo de classificação possui uma maior generalização.
A arquitetura proposta por Ferreira se mostrou robusta e flexível, vendo que mesmo com uma perda de acurácia, ainda existe uma considerável quantidade de classificações corretas.
Os falsos negativos e falsos positivos podem ser combatidos fazendo-se um estudo sobre a redução de ruído das amostras.
A diferença na implementação interna das bibliotecas utilizadas em relação as utilizadas por Ferreira teve um impacto nos resultados.
Isso se deve a utilização de camadas de Reshape e aos filtros de inicialização.
Outro ponto é a imprecisão na documentação das bibliotecas originais em relação as fatos originais.
Com a intenção de realizar uma implementação mais próxima a de [Ferreira et al. 2017] utilizamos um algoritmo que opera de forma similar a uma busca binária.
Isso resultou em uma maior acurácia e menor tempo de treinamento. Enquanto em a taxa de 0.001 não pode ser atingida, a taxa de 0.000571 apresentou melhores resultados que os testes iniciais realizados com 0.0001
Uma comparação entre elementos dos datasets original e experimental mostrou que dados potencialmente foram perdidos devido a sensibilidade do scanner
Para essa constatação, realizamos uma comparação entre um documento escaneado bruto em ambos datasets e analisada a proporção de preto e branco.