Multi-modální zpracování dokumentů
Date issued
2023
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Západočeská univerzita v Plzni
Abstract
Multimodální zpracování dokumentů je oblast informatiky, která se zaměřuje na analýzu, porozumění a získávání cenných informací z dokumentů, které obsahují více typů dat. V této práci je naším hlavním cílem provést analýzu rozložení dokumentů pomocí obrazu i textu. Náš přístup zahrnuje použití modelů pro segmentaci instancí, jako jsou Mask R-CNN, YOLOv8 nebo Cascade R-CNN s páteří LayoutLMv3. Výstupy segmentačních modelů využíváme v multimodálních Transformerech, jako je LayoutLMv3 nebo ve fúzním modelu, který kombinuje německy předtrénovaného BERTa s Vision Transformerem nebo modelem Swin Transformer V2.
Dalším přínosem této práce je také nově vytvořená historická datová sada "Heimatkunde", která se skládá z 4 600 anotací na 329 obrázcích a je použitelná pro multimodální analýzu rozložení dokumentů i pro klasifikaci. Naše modely trénujeme na této datové sadě a jsme schopni dosáhnout výborných výsledků. Tyto modely budou proto reálně využity v historickém portálu Porta Fontium.
Description
Subject(s)
multi-modální, zpracování dokumentů, layoutlmv3, transformer, vit, swin transformer v2, yolov8, strojové učení, zpracování přirozeného jazyka, computer vision, neural networks