Extração de características para impressoras laser utilizando
uma abordagem de deep learning
Prof. Dr. Milton Hirokazu Shimabukuro
Orientador
Robson Cruz
Orientando
Formulação
- Grande utilização de documentos impressos:
- Preocupação com a autenticidade de documentos;
- A identificação da origem é complexa, porém necessária.
Objetivos
-
Em suma:
- Realizar a classificação de documentos se utilizando de técnicas de Deep-Learning;
- Avaliar o desempenho em um ambiente experimental diferente:
- Documentos impressos em cores, mas escaneados preto-e-branco;
- Utilização de diferentes scanners.
- Utilizar estratégias propostas por (FERREIRA, 2017).
Conceituação
Deep Learning e Extração de Caracteristicas
Goodfellow et. al, 2016
Machine Learning
O campo de estudo que garante aos computadores a habilidade de aprender sem necessitar ser explicitamente programado. - Samuel, 1959
Essencialmente uma forma de estatística aplicada com uma crescente ênfase no uso de computadores para realizar complicadas funções estimativas e uma decrescente ênfase em prover intervalos de confiança sobre essas funções.
- Goodfellow et. al, 2016
Machine Learning - Algoritmos
Machine Learning
Não-Supervisionados
Supervisionados
Reforço
Machine Learning - Conceitos
- Generalização;
- Overfitting e underfitting;
- Validação (e cross-validation);
- Bias e variação.
Redes Neurais
- Baseadas "fracamente" no sistema nervoso;
- Possibilidade de realização de diversas tarefas;
- Entrada -> Processamento -> Saída;
- Transições e neurônios possuem peso.
Redes Neurais Convolucionais
São redes neurais que utilizam convolução no lugar de multiplicações matriciais em pelo menos uma de suas camadas - Goodfellow et. al., 2016
Redes Neurais Convolucionais
Ferreira et. al., 2017
Aprendizado de Representação
Um algoritmo de aprendizado de representação busca descobrir fatos sobre os dados, bem como características únicas que se associam a ele
Deep Learning
- Descoberta automatizada da abstração de dados;
- Possui uma grande quantidade de camadas;
- Foca-se na extração de características dos dados.
Conceituação
Abordagem Proposta
Soluções existentes na literatura
- A grande maioria das abordagens se utiliza da análise de texturas;
- Matrizes de correlação e estatísticas de nível de cinza - (Mikkilineni et. al, 2004)
- Trabalhos consequentes se utilizaram de SVMs e clustering;
- (Ferreira et. al., 2015) propôs abordagens baseadas na multidirecionalidade e múltiplas resoluções.
- Utilização de um descritor GLCM.
- Filtro de Textura Gradiente Convolucional
Abordagem proposta
- Extração de Caracteres;
- Montagem das representações;
- Extração de Características;
- Classificação utilizando early-fusion e late-fusion.
1. Extração de Caracteres
- Geração de uma letra de referência;
- Divisão da letra em oito regiões e cálculo da proporção preto-e-branco;
- Extração de caracteres candidatos dos documentos;
- Computação da razão preto-e-branco;
- Melhores candidatos são escolhidos.
2. Geração de representações
- Três diferentes representações:
- Raw;
- Median residual;
- Average residual;
- Auxiliam na distinção de características mais relevantes aos artefatos;
3. Extração de Características
- Utiliza redes convolucionais;
- Múltiplas redes para cada carácter;
- Arquitetura da rede similar a para reconhecimento de dígitos do dataset MNIST;
- A função das redes é agir como um extrator de forma autônoma.
3. Classificação
- É feita por um classificador externo;
- Early fusion:
- Concatenação dos vetores de características em um único.
- Aplicação de um conjunto de SVMs para classificação individual.
- Late Fusion:
- Técnica de votação;
- Análise da lista de votos
Bibliografia
BONNIN, R. Building Machine Learning Projects with TensorFlow .Packt Publishing, 2016. ISBN 978-1-78646-658-7.
BENGIO, Y. Deep learning of representations: Looking forward. CoRR, abs/1305.0445,
2013. Disponível em: <http://arxiv.org/abs/1305.0445>.
CÁNEPA, G. What You Need to Know about Machine Learning . Packt Publishing, 2016.
FERREIRA, A. et al. Data driven approaches for laser printer attribution. IEEE Transactions on Information Forensics and Security , v. 12, n. 8, p. 1860–1873, 2017.
FERREIRA, A. et al. Laser printer attribution: Exploring new features and beyond. Forensic Science International , v. 247, p. 105 – 125, 2015. ISSN 0379-0738. Disponível em: <http://www.sciencedirect.com/science/article/pii/S0379073814005064>.
GOLLAPUDI, S. Practical Machine Learning . Packt Publishing, 2016. ISBN 978-1-78439-968-9.
Bibliografia
GOODFELLOW, I.; BENGIO, Y.; COURVILLE, A. Deep Learning. [S.l.]: MIT Press,
2016. http://www.deeplearningbook.org.
JOSHI, P. Python Machine Learning Cookbook . Packt Publishing, 2016. ISBN 978-1-78646-447-7.
KIM, D.; HOU, J.; LEE, H. Learning deep features for source color laser printer identification based on cascaded learning. CoRR , abs/1711.00207, 2017. Disponível em: <http://arxiv.org/abs/1711.00207>.
MIKKILINENI, A. K. et al. Printer identification based on texture features. In: . [S.l.:s.n.], 2004.
OJALA, T.; PIETIKäINEN, M.; HARWOOD, D. A comparative study of texture measures with classification based on featured distributions. Pattern Recognition, v. 29, n. 1, p. 51 – 59, 1996. ISSN 0031-3203. Disponível em: <http://www.sciencedirect.com-/science/article/pii/0031320395000674>.
SAMUEL, A. L. Some studies in machine learning using the game of checkers. IBM Journal of Research and Development, v. 3, n. 3, p. 210–229, July 1959. ISSN 0018-8646.
Bibliografia
SNOEK, C. G. M.; WORRING, M.; SMEULDERS, A. W. M. Early versus late
fusion in semantic video analysis. In: ACM International Conference on Multimedia.
[s.n.], 2005. p. 399–402. Disponível em: <https://ivi.fnwi.uva.nl/isis/publications/2005-
/SnoekICM2005>.
VAPNIK, V. Estimation of Dependences Based on Empirical Data: Springer Series in Statistics (Springer Series in Statistics). Berlin, Heidelberg: Springer-Verlag, 1982. ISBN 0387907335.
PYTHON. The Python Standard Library . Disponível em: <https://docs.python.org/3/library/index.html>.
TENSORFLOW. All Symbols in Tensorflow , versão 1.7, 2018. Disponível em: <https://www.tensorflow.org/api_docs/python/>.
Obrigado
[TCC 1] Apresentação
By Robson Cruz
[TCC 1] Apresentação
- 67