Extração de características para impressoras laser utilizando
uma abordagem de deep learning

Prof. Dr. Milton Hirokazu Shimabukuro

Orientador

Robson Cruz

Orientando

Formulação

  • Grande utilização de documentos impressos:
  • Preocupação com a autenticidade de documentos;
  • A identificação da origem é complexa, porém necessária.

Objetivos

  • Em suma:
    • Realizar a classificação de documentos se utilizando de técnicas de Deep-Learning;
    • Avaliar o desempenho em um ambiente experimental diferente:
      • Documentos impressos em cores, mas escaneados preto-e-branco;
      • Utilização de diferentes scanners.
    • Utilizar estratégias propostas por (FERREIRA, 2017).

Conceituação

Deep Learning e Extração de Caracteristicas

Goodfellow et. al, 2016

Machine Learning

O campo de estudo que garante aos computadores a habilidade de aprender sem necessitar ser explicitamente programado. - Samuel, 1959

Essencialmente uma forma de estatística aplicada com uma crescente ênfase no uso de computadores para realizar complicadas funções estimativas e uma decrescente ênfase em prover intervalos de confiança sobre essas funções.
- Goodfellow et. al, 2016

Machine Learning - Algoritmos

Machine Learning

Não-Supervisionados

Supervisionados

Reforço

Machine Learning - Conceitos

  • Generalização;
  • Overfitting e underfitting;
  • Validação (e cross-validation);
  • Bias e variação.

Redes Neurais

  • Baseadas "fracamente" no sistema nervoso;
  • Possibilidade de realização de diversas tarefas;
  • Entrada -> Processamento -> Saída;
  • Transições e neurônios possuem peso.

Redes Neurais Convolucionais

São redes neurais que utilizam convolução no lugar de multiplicações matriciais em pelo menos uma de suas camadas - Goodfellow et. al., 2016

Redes Neurais Convolucionais

Ferreira et. al., 2017

Aprendizado de Representação

Um algoritmo de aprendizado de representação busca descobrir fatos sobre os dados, bem como características únicas que se associam a ele

Deep Learning

  • Descoberta automatizada da abstração de dados;
  • Possui uma grande quantidade de camadas;
  • Foca-se na extração de características dos dados.

Conceituação

Abordagem Proposta

Soluções existentes na literatura

  • A grande maioria das abordagens se utiliza da análise de texturas;
  • Matrizes de correlação e estatísticas de nível de cinza - (Mikkilineni et. al, 2004)
  • Trabalhos consequentes se utilizaram de SVMs e clustering;
  • (Ferreira et. al., 2015) propôs abordagens baseadas na multidirecionalidade e múltiplas resoluções.
  • Utilização de um descritor GLCM.
  • Filtro de Textura Gradiente Convolucional

Abordagem proposta

  1. Extração de Caracteres;
  2. Montagem das representações;
  3. Extração de Características;
  4. Classificação utilizando early-fusion e late-fusion.

1. Extração de Caracteres

  1. Geração de uma letra de referência;
  2. Divisão da letra em oito regiões e cálculo da proporção preto-e-branco;
  3. Extração de caracteres candidatos dos documentos;
  4. Computação da razão preto-e-branco;
  5. Melhores candidatos são escolhidos.

2. Geração de representações

  • Três diferentes representações:
    • Raw;
    • Median residual;
    • Average residual;
  • Auxiliam na distinção de características mais relevantes aos artefatos;

3. Extração de Características

  • Utiliza redes convolucionais;
  • Múltiplas redes para cada carácter;
  • Arquitetura da rede similar a para reconhecimento de dígitos do dataset MNIST;
  • A função das redes é agir como um extrator de forma autônoma.

3. Classificação

  • É feita por um classificador externo;
  • Early fusion:
    • Concatenação dos vetores de características em um único.
    • Aplicação de um conjunto de SVMs para classificação individual.
  • Late Fusion:
    • Técnica de votação;
  • Análise da lista de votos

Bibliografia

BONNIN, R. ​ Building Machine Learning Projects with TensorFlow ​ .Packt Publishing, 2016. ISBN 978-1-78646-658-7.

BENGIO, Y. Deep learning of representations: Looking forward. CoRR, abs/1305.0445,
2013. Disponível em: <http://arxiv.org/abs/1305.0445>.

CÁNEPA, G. ​ What You Need to Know about Machine Learning ​ . Packt Publishing, 2016.
FERREIRA, A. et al. Data driven approaches for laser printer attribution. ​ IEEE Transactions on Information Forensics and Security ​ , v. 12, n. 8, p. 1860–1873, 2017.

FERREIRA, A. et al. Laser printer attribution: Exploring new features and beyond. Forensic Science International ​ , v. 247, p. 105 – 125, 2015. ISSN 0379-0738. Disponível em: <http://www.sciencedirect.com/science/article/pii/S0379073814005064>.

GOLLAPUDI, S. ​ Practical Machine Learning ​ . Packt Publishing, 2016. ISBN 978-1-78439-968-9.

Bibliografia

GOODFELLOW, I.; BENGIO, Y.; COURVILLE, A. Deep Learning. [S.l.]: MIT Press,
2016. http://www.deeplearningbook.org.

JOSHI, P. ​ Python Machine Learning Cookbook ​ . Packt Publishing, 2016. ISBN 978-1-78646-447-7.
KIM, D.; HOU, J.; LEE, H. Learning deep features for source color laser printer identification based on cascaded learning. ​ CoRR ​ , abs/1711.00207, 2017. Disponível em: <http://arxiv.org/abs/1711.00207>.

MIKKILINENI, A. K. et al. Printer identification based on texture features. In: . [S.l.:s.n.], 2004.
OJALA, T.; PIETIKäINEN, M.; HARWOOD, D. A comparative study of texture measures with classification based on featured distributions. Pattern Recognition, v. 29, n. 1, p. 51 – 59, 1996. ISSN 0031-3203. Disponível em: <http://www.sciencedirect.com-/science/article/pii/0031320395000674>.
SAMUEL, A. L. Some studies in machine learning using the game of checkers. IBM Journal of Research and Development, v. 3, n. 3, p. 210–229, July 1959. ISSN 0018-8646.

Bibliografia

SNOEK, C. G. M.; WORRING, M.; SMEULDERS, A. W. M. Early versus late
fusion in semantic video analysis. In: ACM International Conference on Multimedia.
[s.n.], 2005. p. 399–402. Disponível em: <https://ivi.fnwi.uva.nl/isis/publications/2005-
/SnoekICM2005>.
VAPNIK, V. Estimation of Dependences Based on Empirical Data: Springer Series in Statistics (Springer Series in Statistics). Berlin, Heidelberg: Springer-Verlag, 1982. ISBN 0387907335.
PYTHON. ​ The Python Standard Library ​ . Disponível em: <https://docs.python.org/3/library/index.html>.
TENSORFLOW. ​ All Symbols in Tensorflow ​ , versão 1.7, 2018. Disponível em: <https://www.tensorflow.org/api_docs/python/>.

 

Obrigado

[TCC 1] Apresentação

By Robson Cruz

[TCC 1] Apresentação

  • 60