Analýza a segmentace historických obrazových dokumentů

Abstract

Proces segmentace historických obrazových dokumentů je klíčový pro jejich následné převedení do textové podoby. Cílem segmentačního procesu je nalezení oblastí, které obsahují text a jejich uložení do PAGE xml, obsahující veškeré důležité informace o konkrétní stránce dokumentu. Segmentační proces je složen z mnoha kroků. S využitím plně propojených konvolučních neuronových sítí UNet a AruNet, vytvoříme predikované masky oblastí zájmu a oddělovačů jednotlivých částí. V rámci bakalářské práce budou provedeny experimenty s cílem nalézt vhodné parametry neuronových sítí. Dále bude implementováno rozšíření, které umožní odlišit typy textových oblastí a také lépe oddělit jednotlivé odstavce.

Description

Subject(s)

segmentace, síť, neuronová síť, konvoluční neuronová síť, plně konvoluční neuronová síť, unet, u-net, aru-net, arunet, page, anotace, separátor, maska, predikce, obrazový dokument, dataset, europeana, porta fontium, layout evaluation, tensorflow, keras

Citation