Diplomová práca

Autor: Bc. Marián Skrip

Školiteľ: Mgr. Juraj Holas

Využitie strojového učenia na spracovanie administratívnych dokumentov

Cieľ

Práca sa zaoberá možnosťami využitia strojového učenia a neurónových sietí

pri spracovaní administratívnych dokumentov za účelom organizovania a

automatizácie byrokratických procesov externej firmy. Študent sa zameria

najmä na porozumenie kontextu dokumentov, ich správne rozdeľovanie a

extrakciu kľučových slov.

Používané technológie

Podobné technológie

Definovanie problémov

  • Separácia dokumentov
  • Klasifikácia dokumentov
  • Detekcia duplikátnych dokumentov a strán
  • Extrakcia kontextu
  • Extrakcia dát

Separácia dokumentov

  • Problém: Rozdelenie viacstranových dokumentov bez použitia ručne vloženého separátora
  • Návrh: Neurónová sieť, ktorá dostane dvojicu strán a povie, či k sebe patria
  • Problém dát: Aké dáta môžu NS zaujímať (určite nie všetky sú relevantné a treba ich čo najviac zredukovať).
  • Návrh: Wordboxy (slovo a jeho poloha) zo začiatku a koncov strán (tam bývaju označenia ako 'strana 1 z 2', alebo maju podobné rozlozenie)

Strana 1

[
  "0000",
  [
    2226,
    4544,
    2335,
    4583
  ]
 ]
[
  "0000",
  [
    2222,
    4545,
    2331,
    4583
  ]
 ]

Strana 2

súradnice

Napríklad

Ďakujem za pozornosť

Diplomová práca

By Marián Skrip

Diplomová práca

  • 42