Extrakce údajů z heterogenních dokumentů pomocí šablon

Date issued

2020

Journal Title

Journal ISSN

Volume Title

Publisher

Západočeská univerzita v Plzni

Abstract

Tato diplomová práce se zabývá problémy z oblasti počítačového vidění k automatizované extrakci užitečných informací z naskenovaných dokumentů (obrazových dat) dle uživatelsky definovaných šablon. Hlavním cílem bylo analyzovat používané techniky a nástroje zaměřující se na zpracování digitálních snímků s následným optickým rozpoznáním znaků (OCR) z textových oblastí. Na základě analýzy byl navržen a implementován software pro tvorbu šablon dokumentů s grafickým uživatelským rozhraním a modul pro práci s naskenovanými dokumenty, který podle příslušné šablony extrahuje oblasti s užitečnými informaci a ty předá OCR systému. Implementované algoritmy byly podrobeny evaluačním testům k získání přehledu o jejich funkčnosti a robustnosti s ohledem k zamýšlenému účelu, jejichž výstup byl shrnut v závěru této práce. Nejlépe vyhodnocené algoritmy s konfigurovatelnými vstupními parametry jsou v aplikaci nastaveny jako výchozí.

Description

Subject(s)

počítačové vidění, zpracování obrazu, hledání vzoru, extrakce informací, šablony dokumentů, ocr, tesseract, opencv, c++

Citation

Collections

OPEN License Selector