Extração de características para impressoras laser utilizando
uma abordagem de deep learning
Prof. Dr. Milton Hirokazu Shimabukuro
Orientador
Robson Cruz
Orientando
Formulação do Problema
- Grande utilização de documentos impressos:
- Preocupação com a autenticidade de documentos;
- A identificação da origem é complexa, porém necessária;
- Grande parte das técnicas disponíveis necessita de conhecimento prévio.
Objetivos
-
Em suma:
- Realizar a classificação de documentos se utilizando de técnicas de Deep-Learning;
- Avaliar o desempenho em um ambiente experimental diferente:
- Documentos impressos em cores, mas escaneados preto-e-branco;
- Utilização de diferentes scanners.
- Utilizar estratégias propostas por (FERREIRA, 2017).
Justificativa
- Documentos impressos são extremamente comuns;
- A abordagem proposta já apresentou excelentes resultados;
- Aumentará a flexibilidade de utilização da abordagem.
Conceituação
Abordagem Proposta
Soluções existentes na literatura
- A grande maioria das abordagens se utiliza da análise de texturas;
- Matrizes de correlação e estatísticas de nível de cinza - (Mikkilineni et. al, 2004)
- Trabalhos consequentes se utilizaram de SVMs e clustering;
- (Ferreira et. al., 2015) propôs abordagens baseadas na multidirecionalidade e múltiplas resoluções.
- Utilização de um descritor GLCM.
- Filtro de Textura Gradiente Convolucional
Abordagem proposta
- Extração de Caracteres;
- Montagem das representações;
- Extração de Características;
- Classificação utilizando early-fusion e late-fusion.
1. Extração de Caracteres
- Geração de uma letra de referência;
- Divisão da letra em oito regiões e cálculo da proporção preto-e-branco;
- Extração de caracteres candidatos dos documentos;
- Computação da razão preto-e-branco;
- Melhores candidatos são escolhidos.
2. Geração de representações
- Três diferentes representações:
- Raw;
- Median residual;
- Average residual;
- Auxiliam na distinção de características mais relevantes aos artefatos;
3. Extração de Características
- Utiliza redes convolucionais;
- Múltiplas redes para cada carácter;
- Arquitetura da rede similar a para reconhecimento de dígitos do dataset MNIST;
- A função das redes é agir como um extrator de forma autônoma.
4. Classificação
- É feita por um classificador externo;
- Early fusion:
- Concatenação dos vetores de características em um único.
- Aplicação de um conjunto de SVMs para classificação individual.
- Late Fusion:
- Técnica de votação;
- Análise da lista de votos
Tecnologias
O stack tecnológico proposto para o trabalho
Tecnologias
- Software:
- Python-opencv;
- Tensorflow/Keras;
- Flask (opcional).
- Infraestrutura e hardware:
- Docker;
- Vagrant;
- Amazon EC2;
- Diferentes impressoras laser.
Desafios
Possíveis problemas a serem encontrados
Desafios
- Tradução;
- Geração de Dataset;
- Dificuldades no treinamento;
Bibliografia
BONNIN, R. Building Machine Learning Projects with TensorFlow .Packt Publishing, 2016. ISBN 978-1-78646-658-7.
BENGIO, Y. Deep learning of representations: Looking forward. CoRR, abs/1305.0445,
2013. Disponível em: <http://arxiv.org/abs/1305.0445>.
CÁNEPA, G. What You Need to Know about Machine Learning . Packt Publishing, 2016.
FERREIRA, A. et al. Data driven approaches for laser printer attribution. IEEE Transactions on Information Forensics and Security , v. 12, n. 8, p. 1860–1873, 2017.
FERREIRA, A. et al. Laser printer attribution: Exploring new features and beyond. Forensic Science International , v. 247, p. 105 – 125, 2015. ISSN 0379-0738. Disponível em: <http://www.sciencedirect.com/science/article/pii/S0379073814005064>.
GOLLAPUDI, S. Practical Machine Learning . Packt Publishing, 2016. ISBN 978-1-78439-968-9.
Bibliografia
GOODFELLOW, I.; BENGIO, Y.; COURVILLE, A. Deep Learning. [S.l.]: MIT Press,
2016. http://www.deeplearningbook.org.
JOSHI, P. Python Machine Learning Cookbook . Packt Publishing, 2016. ISBN 978-1-78646-447-7.
KIM, D.; HOU, J.; LEE, H. Learning deep features for source color laser printer identification based on cascaded learning. CoRR , abs/1711.00207, 2017. Disponível em: <http://arxiv.org/abs/1711.00207>.
MIKKILINENI, A. K. et al. Printer identification based on texture features. In: . [S.l.:s.n.], 2004.
OJALA, T.; PIETIKäINEN, M.; HARWOOD, D. A comparative study of texture measures with classification based on featured distributions. Pattern Recognition, v. 29, n. 1, p. 51 – 59, 1996. ISSN 0031-3203. Disponível em: <http://www.sciencedirect.com-/science/article/pii/0031320395000674>.
SAMUEL, A. L. Some studies in machine learning using the game of checkers. IBM Journal of Research and Development, v. 3, n. 3, p. 210–229, July 1959. ISSN 0018-8646.
Bibliografia
SNOEK, C. G. M.; WORRING, M.; SMEULDERS, A. W. M. Early versus late
fusion in semantic video analysis. In: ACM International Conference on Multimedia.
[s.n.], 2005. p. 399–402. Disponível em: <https://ivi.fnwi.uva.nl/isis/publications/2005-
/SnoekICM2005>.
VAPNIK, V. Estimation of Dependences Based on Empirical Data: Springer Series in Statistics (Springer Series in Statistics). Berlin, Heidelberg: Springer-Verlag, 1982. ISBN 0387907335.
PYTHON. The Python Standard Library . Disponível em: <https://docs.python.org/3/library/index.html>.
TENSORFLOW. All Symbols in Tensorflow , versão 1.7, 2018. Disponível em: <https://www.tensorflow.org/api_docs/python/>.
Obrigado
[TCC 2] Apresentação Inicial
By Robson Cruz
[TCC 2] Apresentação Inicial
- 82