Automatické vytváření souhrnů historických dokumentů

dc.contributor.advisorKrál Pavel, Doc. Ing. Ph.D.
dc.contributor.authorTran, Václav
dc.contributor.refereeMartínek Jiří, Ing. Ph.D.
dc.date.accepted2024-6-11
dc.date.accessioned2024-07-12T09:13:04Z
dc.date.available2023-10-2
dc.date.available2024-07-12T09:13:04Z
dc.date.issued2024
dc.date.submitted2024-5-2
dc.description.abstractNeuronové síťě dnes dosahují výborných výsledků ve světě automatického vytváření souhrnu dokumentů či textů. Tato bakalářská práce se zabývá automatickým vytvářením souhrnů českých historických dokumentů, což je téma, které není příliš prozkoumané. Pro vyhodnocení a zlepšení výkonu našich metod jsme vytvořili vlastní dataset ze sady historických dokumentů. Poté jsme natrénovali a využili modely Mistral 7B a mT5, které jsou založené na architektuře Transformer. Navíc jsme implementovali a vyohodnotili přístup, který kombinuje nejnovější metody strojového překladu a metody pro automatické vytváření souhrnu textu v angličtině. Tuto metodu označujeme jako Translation-Summarizaton-Translation. Výsledky zmiňovaných metod představují nový základ pro úkol automatické sumarizace českých historických dokumentů.cs
dc.description.abstract-translatedIn the domain of automatic text summarization, neural networks show promising performances. This thesis probes into the task of automatic summarization of Czech historical documents, a largely unexplored niche area with a scant amount of datasets available. To evaluate and improve the performance of our methods, we created our own dataset constructed from a corpus of historical documents. Then we fine-tuned and utilized Transformer-based models Mistral 7B and mT5. We also implemented and evaluated a method, which we refer to as Translation-Summarization-Translation, where we utilize state-of-the-art machine translation and English summarization methods to generate Czech summaries. The performance of these methods set a new baseline for the task of summarizing Czech historical documents.en
dc.description.resultObhájeno
dc.format47 s.
dc.identifier96995
dc.identifier.urihttp://hdl.handle.net/11025/57103
dc.language.isoen
dc.publisherZápadočeská univerzita v Plzni
dc.rightsPlný text práce je přístupný bez omezení
dc.subjectneuronové síťěcs
dc.subjectumělá inteligencecs
dc.subjectsumarizace textucs
dc.subjectčeské historické dokumentycs
dc.subject.translatedneural networken
dc.subject.translatedartificial intelligenceen
dc.subject.translatedtext summarizationen
dc.subject.translatedczech historical documentsen
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných věd
dc.thesis.degree-levelBakalářský
dc.thesis.degree-nameBc.
dc.thesis.degree-programInformatika a výpočetní technika
dc.titleAutomatické vytváření souhrnů historických dokumentůcs
dc.title.alternativeAutomatic Creation of Summaries of Historical Documentsen
dc.typebakalářská práce

Files

Original bundle
Showing 1 - 5 out of 6 results
No Thumbnail Available
Name:
text_thesis.pdf
Size:
532.79 KB
Format:
Adobe Portable Document Format
Description:
Plný text práce
No Thumbnail Available
Name:
A21B0299P_Posudek.pdf
Size:
246.6 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta práce
No Thumbnail Available
Name:
A21B0299P_Hodnoceni.pdf
Size:
23.58 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího práce
No Thumbnail Available
Name:
A21B0299P_Obhajoba.pdf
Size:
108.04 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby práce
No Thumbnail Available
Name:
A21B0299P_Zadani.pdf
Size:
21.91 KB
Format:
Adobe Portable Document Format
Description:
VŠKP - příloha