Extração de características para impressoras laser utilizando
uma abordagem de deep learning

Prof. Dr. Milton Hirokazu Shimabukuro

Orientador

Robson Cruz

Orientando

Formulação do Problema

Grande utilização de documentos impressos:
Preocupação com a autenticidade de documentos;
A identificação da origem é complexa, porém necessária;
Grande parte das técnicas disponíveis necessita de conhecimento prévio.

Objetivos

Em suma:
- Realizar a classificação de documentos se utilizando de técnicas de Deep-Learning;
- Avaliar o desempenho em um ambiente experimental diferente:
  - Documentos impressos em cores, mas escaneados preto-e-branco;
  - Utilização de diferentes scanners.
- Utilizar estratégias propostas por (FERREIRA, 2017).

Justificativa

Documentos impressos são extremamente comuns;
A abordagem proposta já apresentou excelentes resultados;
Aumentará a flexibilidade de utilização da abordagem.

Conceituação

Abordagem Proposta

Soluções existentes na literatura

A grande maioria das abordagens se utiliza da análise de texturas;
Matrizes de correlação e estatísticas de nível de cinza - (Mikkilineni et. al, 2004)
Trabalhos consequentes se utilizaram de SVMs e clustering;
(Ferreira et. al., 2015) propôs abordagens baseadas na multidirecionalidade e múltiplas resoluções.
Utilização de um descritor GLCM.
Filtro de Textura Gradiente Convolucional

Abordagem proposta

Extração de Caracteres;
Montagem das representações;
Extração de Características;
Classificação utilizando early-fusion e late-fusion.

1. Extração de Caracteres

Geração de uma letra de referência;
Divisão da letra em oito regiões e cálculo da proporção preto-e-branco;
Extração de caracteres candidatos dos documentos;
Computação da razão preto-e-branco;
Melhores candidatos são escolhidos.

2. Geração de representações

Três diferentes representações:
- Raw;
- Median residual;
- Average residual;
Auxiliam na distinção de características mais relevantes aos artefatos;

3. Extração de Características

Utiliza redes convolucionais;
Múltiplas redes para cada carácter;
Arquitetura da rede similar a para reconhecimento de dígitos do dataset MNIST;
A função das redes é agir como um extrator de forma autônoma.

4. Classificação

É feita por um classificador externo;
Early fusion:
- Concatenação dos vetores de características em um único.
- Aplicação de um conjunto de SVMs para classificação individual.
Late Fusion:
- Técnica de votação;
Análise da lista de votos

Tecnologias

O stack tecnológico proposto para o trabalho

Tecnologias

Software:
- Python-opencv;
- Tensorflow/Keras;
- Flask (opcional).
Infraestrutura e hardware:
- Docker;
- Vagrant;
- Amazon EC2;
- Diferentes impressoras laser.

Desafios

Possíveis problemas a serem encontrados

Desafios

Tradução;
Geração de Dataset;
Dificuldades no treinamento;

Bibliografia

BONNIN, R. Building Machine Learning Projects with TensorFlow .Packt Publishing, 2016. ISBN 978-1-78646-658-7.

BENGIO, Y. Deep learning of representations: Looking forward. CoRR, abs/1305.0445,
2013. Disponível em: <http://arxiv.org/abs/1305.0445>.
CÁNEPA, G. What You Need to Know about Machine Learning . Packt Publishing, 2016.
FERREIRA, A. et al. Data driven approaches for laser printer attribution. IEEE Transactions on Information Forensics and Security , v. 12, n. 8, p. 1860–1873, 2017.

FERREIRA, A. et al. Laser printer attribution: Exploring new features and beyond. Forensic Science International , v. 247, p. 105 – 125, 2015. ISSN 0379-0738. Disponível em: <http://www.sciencedirect.com/science/article/pii/S0379073814005064>.

GOLLAPUDI, S. Practical Machine Learning . Packt Publishing, 2016. ISBN 978-1-78439-968-9.

Bibliografia

GOODFELLOW, I.; BENGIO, Y.; COURVILLE, A. Deep Learning. [S.l.]: MIT Press,
2016. http://www.deeplearningbook.org.
JOSHI, P. Python Machine Learning Cookbook . Packt Publishing, 2016. ISBN 978-1-78646-447-7.
KIM, D.; HOU, J.; LEE, H. Learning deep features for source color laser printer identification based on cascaded learning. CoRR , abs/1711.00207, 2017. Disponível em: <http://arxiv.org/abs/1711.00207>.

MIKKILINENI, A. K. et al. Printer identification based on texture features. In: . [S.l.:s.n.], 2004.
OJALA, T.; PIETIKäINEN, M.; HARWOOD, D. A comparative study of texture measures with classification based on featured distributions. Pattern Recognition, v. 29, n. 1, p. 51 – 59, 1996. ISSN 0031-3203. Disponível em: <http://www.sciencedirect.com-/science/article/pii/0031320395000674>.
SAMUEL, A. L. Some studies in machine learning using the game of checkers. IBM Journal of Research and Development, v. 3, n. 3, p. 210–229, July 1959. ISSN 0018-8646.

Bibliografia

SNOEK, C. G. M.; WORRING, M.; SMEULDERS, A. W. M. Early versus late
fusion in semantic video analysis. In: ACM International Conference on Multimedia.
[s.n.], 2005. p. 399–402. Disponível em: <https://ivi.fnwi.uva.nl/isis/publications/2005-
/SnoekICM2005>.
VAPNIK, V. Estimation of Dependences Based on Empirical Data: Springer Series in Statistics (Springer Series in Statistics). Berlin, Heidelberg: Springer-Verlag, 1982. ISBN 0387907335.
PYTHON. The Python Standard Library . Disponível em: <https://docs.python.org/3/library/index.html>.
TENSORFLOW. All Symbols in Tensorflow , versão 1.7, 2018. Disponível em: <https://www.tensorflow.org/api_docs/python/>.

Extração de características para impressoras laser utilizando
uma abordagem de deep learning

Formulação do Problema

Objetivos

Justificativa

Conceituação

Abordagem Proposta

Soluções existentes na literatura

Abordagem proposta

1. Extração de Caracteres

2. Geração de representações

3. Extração de Características

4. Classificação

Tecnologias

O stack tecnológico proposto para o trabalho

Tecnologias

Desafios

Possíveis problemas a serem encontrados

Desafios

Bibliografia

Bibliografia

Bibliografia

Obrigado

[TCC 2] Apresentação Inicial

[TCC 2] Apresentação Inicial

Robson Cruz

Extração de características para impressoras laser utilizando uma abordagem de deep learning

Formulação do Problema

Objetivos

Justificativa

Conceituação

Abordagem Proposta

Soluções existentes na literatura

Abordagem proposta

1. Extração de Caracteres

2. Geração de representações

3. Extração de Características

4. Classificação

Tecnologias

O stack tecnológico proposto para o trabalho

Tecnologias

Desafios

Possíveis problemas a serem encontrados

Desafios

Bibliografia

Bibliografia

Bibliografia

Obrigado

[TCC 2] Apresentação Inicial

More from Robson Cruz

Extração de características para impressoras laser utilizando
uma abordagem de deep learning