Diplomová práca
Autor: Bc. Marián Skrip
Školiteľ: Mgr. Juraj Holas
Využitie strojového učenia na spracovanie administratívnych dokumentov
Cieľ
Práca sa zaoberá možnosťami využitia strojového učenia a neurónových sietí
pri spracovaní administratívnych dokumentov za účelom organizovania a
automatizácie byrokratických procesov externej firmy. Študent sa zameria
najmä na porozumenie kontextu dokumentov, ich správne rozdeľovanie a
extrakciu kľučových slov.
Používané technológie
- Python
- Tensorflow
- Tesseract OCR
- pdfrw
Podobné technológie
Definovanie problémov
- Separácia dokumentov
- Klasifikácia dokumentov
- Detekcia duplikátnych dokumentov a strán
- Extrakcia kontextu
- Extrakcia dát
Separácia dokumentov
- Problém: Rozdelenie viacstranových dokumentov bez použitia ručne vloženého separátora
- Návrh: Neurónová sieť, ktorá dostane dvojicu strán a povie, či k sebe patria
- Problém dát: Aké dáta môžu NS zaujímať (určite nie všetky sú relevantné a treba ich čo najviac zredukovať).
- Návrh: Wordboxy (slovo a jeho poloha) zo začiatku a koncov strán (tam bývaju označenia ako 'strana 1 z 2', alebo maju podobné rozlozenie)
Strana 1
[
"0000",
[
2226,
4544,
2335,
4583
]
]
[
"0000",
[
2222,
4545,
2331,
4583
]
]
Strana 2
súradnice
Napríklad
Ďakujem za pozornosť
Diplomová práca
By Marián Skrip
Diplomová práca
- 42