Multi-modální zpracování dokumentů

dc.contributor.advisorKrál Pavel, Doc. Ing. Ph.D.
dc.contributor.authorHonzík, Václav
dc.contributor.refereeLenc Ladislav, Ing. Ph.D.
dc.date.accepted2023-9-5
dc.date.accessioned2023-09-11T22:23:28Z
dc.date.available2022-9-9
dc.date.available2023-09-11T22:23:28Z
dc.date.issued2023
dc.date.submitted2023-5-18
dc.description.abstractMultimodální zpracování dokumentů je oblast informatiky, která se zaměřuje na analýzu, porozumění a získávání cenných informací z dokumentů, které obsahují více typů dat. V této práci je naším hlavním cílem provést analýzu rozložení dokumentů pomocí obrazu i textu. Náš přístup zahrnuje použití modelů pro segmentaci instancí, jako jsou Mask R-CNN, YOLOv8 nebo Cascade R-CNN s páteří LayoutLMv3. Výstupy segmentačních modelů využíváme v multimodálních Transformerech, jako je LayoutLMv3 nebo ve fúzním modelu, který kombinuje německy předtrénovaného BERTa s Vision Transformerem nebo modelem Swin Transformer V2. Dalším přínosem této práce je také nově vytvořená historická datová sada "Heimatkunde", která se skládá z 4 600 anotací na 329 obrázcích a je použitelná pro multimodální analýzu rozložení dokumentů i pro klasifikaci. Naše modely trénujeme na této datové sadě a jsme schopni dosáhnout výborných výsledků. Tyto modely budou proto reálně využity v historickém portálu Porta Fontium.cs
dc.description.abstract-translatedMulti-modal document processing is an area of computer science that focuses on analyzing, understanding, and extracting valuable information from documents that contain multiple types of data. In this work, our main objective is to perform document layout analysis using both visual and textual modalities. Our approach involves the use of instance segmentation models such as Mask R-CNN, YOLOv8, or Cascade R-CNN with a LayoutLMv3 backbone. We employ the outputs of the segmentation models with multi-modal Transformers such as LayoutLMv3 or a fusion model combining German pre-trained BERT with either Vision Transformer or Swin Transformer~V2. Another contribution of this work is a newly created historical "Heimatkunde" dataset, which consists of 4,600 annotations across 329 images and is applicable for multi-modal document layout analysis as well as classification. We train our models on this dataset and are able to achieve excellent results. Therefore, we plan to integrate these models into the Porta Fontium portal.en
dc.description.resultObhájeno
dc.format98 s (150 437 znaků)
dc.identifier93470
dc.identifier.urihttp://hdl.handle.net/11025/54138
dc.language.isoen
dc.publisherZápadočeská univerzita v Plzni
dc.rightsPlný text práce je přístupný bez omezení
dc.subjectmulti-modálnícs
dc.subjectzpracování dokumentůcs
dc.subjectlayoutlmv3cs
dc.subjecttransformercs
dc.subjectvitcs
dc.subjectswin transformer v2cs
dc.subjectyolov8cs
dc.subjectstrojové učenícs
dc.subjectzpracování přirozeného jazykacs
dc.subjectcomputer visioncs
dc.subjectneural networkscs
dc.subject.translatedmulti-modalen
dc.subject.translateddocument processingen
dc.subject.translatedlayoutlmv3en
dc.subject.translatedtransformeren
dc.subject.translatedviten
dc.subject.translatedswin transformer v2en
dc.subject.translatedyolov8en
dc.subject.translatedmachine learningen
dc.subject.translatednatural language processingen
dc.subject.translatedcomputer visionen
dc.subject.translatedneural networksen
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných věd
dc.thesis.degree-levelNavazující
dc.thesis.degree-nameIng.
dc.thesis.degree-programInženýrská informatika
dc.titleMulti-modální zpracování dokumentůcs
dc.title.alternativeMulti-modal document processingen
dc.typediplomová práce

Files

Original bundle
Showing 1 - 5 out of 6 results
No Thumbnail Available
Name:
MastersThesis.pdf
Size:
9.66 MB
Format:
Adobe Portable Document Format
Description:
Plný text práce
No Thumbnail Available
Name:
A21N0045Pposudek-op.pdf
Size:
420.88 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta práce
No Thumbnail Available
Name:
A21N0045Phodnoceni-ved.pdf
Size:
53.28 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího práce
No Thumbnail Available
Name:
A21N0045Pobhajoba.pdf
Size:
187 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby práce
No Thumbnail Available
Name:
A21N0045P-zadani_DP.pdf
Size:
14.11 KB
Format:
Adobe Portable Document Format
Description:
VŠKP - příloha

Collections