Multi-modální zpracování dokumentů

Honzík, Václav

Multi-modální zpracování dokumentů

Files

MastersThesis.pdf (9.66 MB)

A21N0045Pposudek-op.pdf (420.88 KB)

A21N0045Phodnoceni-ved.pdf (53.28 KB)

A21N0045Pobhajoba.pdf (187 KB)

A21N0045P-zadani_DP.pdf (14.11 KB)

Date issued

2023

Authors

Honzík, Václav

Publisher

Západočeská univerzita v Plzni

Abstract

Multimodální zpracování dokumentů je oblast informatiky, která se zaměřuje na analýzu, porozumění a získávání cenných informací z dokumentů, které obsahují více typů dat. V této práci je naším hlavním cílem provést analýzu rozložení dokumentů pomocí obrazu i textu. Náš přístup zahrnuje použití modelů pro segmentaci instancí, jako jsou Mask R-CNN, YOLOv8 nebo Cascade R-CNN s páteří LayoutLMv3. Výstupy segmentačních modelů využíváme v multimodálních Transformerech, jako je LayoutLMv3 nebo ve fúzním modelu, který kombinuje německy předtrénovaného BERTa s Vision Transformerem nebo modelem Swin Transformer V2. Dalším přínosem této práce je také nově vytvořená historická datová sada "Heimatkunde", která se skládá z 4 600 anotací na 329 obrázcích a je použitelná pro multimodální analýzu rozložení dokumentů i pro klasifikaci. Naše modely trénujeme na této datové sadě a jsme schopni dosáhnout výborných výsledků. Tyto modely budou proto reálně využity v historickém portálu Porta Fontium.

Subject(s)

multi-modální, zpracování dokumentů, layoutlmv3, transformer, vit, swin transformer v2, yolov8, strojové učení, zpracování přirozeného jazyka, computer vision, neural networks

Item identifier

http://hdl.handle.net/11025/54138

Collections

Theses (KIV)

Show full item record

Multi-modální zpracování dokumentů

Files

Date issued

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Subject(s)

Citation

Item identifier

Collections