Extração de características para impressoras laser utilizando
uma abordagem de deep learning

Prof. Dr. Milton Hirokazu Shimabukuro

Orientador

Robson Cruz

Orientando

Formulação do Problema

  • Grande utilização de documentos impressos:
  • Preocupação com a autenticidade de documentos;
  • A identificação da origem é complexa, porém necessária;
  • Grande parte das técnicas disponíveis necessita de conhecimento prévio.

Objetivos

  • Em suma:
    • Realizar a classificação de documentos se utilizando de técnicas de Deep-Learning;
    • Avaliar o desempenho em um ambiente experimental diferente:
      • Documentos impressos em cores, mas escaneados preto-e-branco;
      • Utilização de diferentes scanners.
    • Utilizar estratégias propostas por (FERREIRA, 2017).

Justificativa

  • Documentos impressos são extremamente comuns;
  • A abordagem proposta já apresentou excelentes resultados;
  • Aumentará a flexibilidade de utilização da abordagem.

Conceituação

Abordagem Proposta

Soluções existentes na literatura

  • A grande maioria das abordagens se utiliza da análise de texturas;
  • Matrizes de correlação e estatísticas de nível de cinza - (Mikkilineni et. al, 2004)
  • Trabalhos consequentes se utilizaram de SVMs e clustering;
  • (Ferreira et. al., 2015) propôs abordagens baseadas na multidirecionalidade e múltiplas resoluções.
  • Utilização de um descritor GLCM.
  • Filtro de Textura Gradiente Convolucional

Abordagem proposta

  1. Extração de Caracteres;
  2. Montagem das representações;
  3. Extração de Características;
  4. Classificação utilizando early-fusion e late-fusion.

1. Extração de Caracteres

  1. Geração de uma letra de referência;
  2. Divisão da letra em oito regiões e cálculo da proporção preto-e-branco;
  3. Extração de caracteres candidatos dos documentos;
  4. Computação da razão preto-e-branco;
  5. Melhores candidatos são escolhidos.

2. Geração de representações

  • Três diferentes representações:
    • Raw;
    • Median residual;
    • Average residual;
  • Auxiliam na distinção de características mais relevantes aos artefatos;

3. Extração de Características

  • Utiliza redes convolucionais;
  • Múltiplas redes para cada carácter;
  • Arquitetura da rede similar a para reconhecimento de dígitos do dataset MNIST;
  • A função das redes é agir como um extrator de forma autônoma.

4. Classificação

  • É feita por um classificador externo;
  • Early fusion:
    • Concatenação dos vetores de características em um único.
    • Aplicação de um conjunto de SVMs para classificação individual.
  • Late Fusion:
    • Técnica de votação;
  • Análise da lista de votos

Tecnologias

O stack tecnológico proposto para o trabalho

Tecnologias

  • Software:
    • Python-opencv;
    • Tensorflow/Keras;
    • Flask (opcional).
  • Infraestrutura e hardware:
    • Docker;
    • Vagrant;
    • Amazon EC2;
    • Diferentes impressoras laser.

Desafios

Possíveis problemas a serem encontrados

Desafios

  • Tradução;
  • Geração de Dataset;
  • Dificuldades no treinamento;

Bibliografia

BONNIN, R. ​ Building Machine Learning Projects with TensorFlow ​ .Packt Publishing, 2016. ISBN 978-1-78646-658-7.

BENGIO, Y. Deep learning of representations: Looking forward. CoRR, abs/1305.0445,
2013. Disponível em: <http://arxiv.org/abs/1305.0445>.

CÁNEPA, G. ​ What You Need to Know about Machine Learning ​ . Packt Publishing, 2016.
FERREIRA, A. et al. Data driven approaches for laser printer attribution. ​ IEEE Transactions on Information Forensics and Security ​ , v. 12, n. 8, p. 1860–1873, 2017.

FERREIRA, A. et al. Laser printer attribution: Exploring new features and beyond. Forensic Science International ​ , v. 247, p. 105 – 125, 2015. ISSN 0379-0738. Disponível em: <http://www.sciencedirect.com/science/article/pii/S0379073814005064>.

GOLLAPUDI, S. ​ Practical Machine Learning ​ . Packt Publishing, 2016. ISBN 978-1-78439-968-9.

Bibliografia

GOODFELLOW, I.; BENGIO, Y.; COURVILLE, A. Deep Learning. [S.l.]: MIT Press,
2016. http://www.deeplearningbook.org.

JOSHI, P. ​ Python Machine Learning Cookbook ​ . Packt Publishing, 2016. ISBN 978-1-78646-447-7.
KIM, D.; HOU, J.; LEE, H. Learning deep features for source color laser printer identification based on cascaded learning. ​ CoRR ​ , abs/1711.00207, 2017. Disponível em: <http://arxiv.org/abs/1711.00207>.

MIKKILINENI, A. K. et al. Printer identification based on texture features. In: . [S.l.:s.n.], 2004.
OJALA, T.; PIETIKäINEN, M.; HARWOOD, D. A comparative study of texture measures with classification based on featured distributions. Pattern Recognition, v. 29, n. 1, p. 51 – 59, 1996. ISSN 0031-3203. Disponível em: <http://www.sciencedirect.com-/science/article/pii/0031320395000674>.
SAMUEL, A. L. Some studies in machine learning using the game of checkers. IBM Journal of Research and Development, v. 3, n. 3, p. 210–229, July 1959. ISSN 0018-8646.

Bibliografia

SNOEK, C. G. M.; WORRING, M.; SMEULDERS, A. W. M. Early versus late
fusion in semantic video analysis. In: ACM International Conference on Multimedia.
[s.n.], 2005. p. 399–402. Disponível em: <https://ivi.fnwi.uva.nl/isis/publications/2005-
/SnoekICM2005>.
VAPNIK, V. Estimation of Dependences Based on Empirical Data: Springer Series in Statistics (Springer Series in Statistics). Berlin, Heidelberg: Springer-Verlag, 1982. ISBN 0387907335.
PYTHON. ​ The Python Standard Library ​ . Disponível em: <https://docs.python.org/3/library/index.html>.
TENSORFLOW. ​ All Symbols in Tensorflow ​ , versão 1.7, 2018. Disponível em: <https://www.tensorflow.org/api_docs/python/>.

 

Obrigado

Made with Slides.com