Analýza a segmentace historických obrazových dokumentů
Date issued
2022
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Západočeská univerzita v Plzni
Abstract
Proces segmentace historických obrazových dokumentů je klíčový pro jejich následné převedení do textové podoby. Cílem segmentačního procesu je nalezení oblastí, které obsahují text a jejich uložení do PAGE xml, obsahující veškeré důležité informace o konkrétní stránce dokumentu. Segmentační proces je složen z mnoha kroků. S využitím plně propojených konvolučních neuronových sítí UNet a AruNet, vytvoříme predikované masky oblastí zájmu a oddělovačů jednotlivých částí. V rámci bakalářské práce budou provedeny experimenty s cílem nalézt vhodné parametry neuronových sítí. Dále bude implementováno rozšíření, které umožní odlišit typy textových oblastí a také lépe oddělit jednotlivé odstavce.
Description
Subject(s)
segmentace, síť, neuronová síť, konvoluční neuronová síť, plně konvoluční neuronová síť, unet, u-net, aru-net, arunet, page, anotace, separátor, maska, predikce, obrazový dokument, dataset, europeana, porta fontium, layout evaluation, tensorflow, keras