Modelování sémantiky a kontextu pro zpracování přirozeného jazyka v čestině

dc.contributor.authorSido, Jakubcs
dc.date.accepted2025-11-25
dc.date.accessioned2026-02-26T23:07:59Z
dc.date.available2024-10-11
dc.date.available2026-02-26T23:07:59Z
dc.date.issued2025-05-14
dc.date.submitted2025-05-14
dc.description.abstractTato práce se zabývá metodami pro zlepšení výkonu neuronových sítí při zpracování přirozeného jazyka se zaměřením na sémantickou reprezentaci, kontextové porozumění a výpočetní efektivitu. Realizuje řadu experimentů zaměřených na optimalizaci trénování i odvozování, včetně využití kvantizačních technik ke snížení nároků na zdroje a umožnění nasazení na mobilních zařízeních a zařízeních s omezenými zdroji.<br>Zásadním přínosem této práce je vývoj a vyhodnocení CZERT, prvního českého modelu založeného na BERT architektuře, který významně posunul možnosti zpracování přirozeného jazyka v češtině a položil základy pro následný výzkum. V návaznosti na něj zkoumáme architekturu BART v úlohách, jako je sumarizace a sémantická podobnost textů. Stručně také představíme navazující výzkum rozšiřující tyto přístupy na detekci multimodální duplicity ve webových diskusích.<br>Abychom dále podpořili výzkum role kontextu v sémantické reprezentaci, vytvořili jsme ve spolupráci s českými novináři rozsáhlou a kvalitní sadu dat sémantických textových podobností. Tato datová sada má usnadnit vývoj kontextově orientovaných modelů a sloužit jako dlouhodobé měřítko pro hodnocení jejich výkonnosti.<br>Nakonec se zabýváme experimentálními aplikacemi v oblasti žurnalistiky, včetně systémů pro sumarizaci událostí a automatizované zpravodajství. Tyto prototypy ukazují potenciál neuronových modelů pro podporu složitých jazykových úloh ve specializovaných profesních prostředích. Celkově tato práce nabízí jak teoretické poznatky, tak praktický pokrok směrem k vývoji efektivních jazykových technologií s ohledem na kontext.cs
dc.description.abstract-translatedThis thesis investigates methods for improving the performance of neural networks in natural language processing, with a particular emphasis on semantic representation, contextual understanding, and computational efficiency. We conduct a series of experiments aimed at optimizing both training and inference, including the use of quantization techniques to reduce resource consumption and enable deployment on mobile and resource-constrained devices.<br>A central contribution of this work is the development and evaluation of CZERT, the first Czech BERT-based model, which significantly advanced NLP capabilities for the Czech language and laid the foundation for subsequent research. Building on this, we explore the BART architecture in tasks such as summarization and semantic textual similarity. We also briefly present follow-up research extending these approaches to multimodal duplicity detection in web-based discussions.<br>To further support research into the role of context in semantic representation, we created a large, high-quality semantic textual similarity dataset in collaboration with Czech journalists. This dataset is designed to facilitate the development of context-aware models and to serve as a long-term benchmark for evaluating their performance.<br>Finally, we examine experimental applications in the journalism domain, including systems for event summarization and automated news reporting. These prototypes demonstrate the potential of neural models to support complex language tasks in specialized professional settings. Overall, this thesis offers both theoretical insights and practical advancements toward the development of efficient, context-aware language technologies.en
dc.description.departmentKatedra informatiky a výpočetní technikycs
dc.description.resultObhájenocs
dc.format140 stran
dc.identifier101841
dc.identifier.urihttp://hdl.handle.net/11025/67115
dc.language.isoen
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezenícs
dc.rights.accessopenAccesscs
dc.subjectNeuronové sítěcs
dc.subjectzpracování přirozeného jazykacs
dc.subjectvelké jazykové modelycs
dc.subjectsémantikacs
dc.subject.translatedNeural Networksen
dc.subject.translatedNatural Language Processingen
dc.subject.translatedLarge Language Modelsen
dc.subject.translatedSemanticsen
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-levelDoktorskýcs
dc.thesis.degree-namePh.D.cs
dc.thesis.degree-programInformatika a výpočetní technikacs
dc.titleModelování sémantiky a kontextu pro zpracování přirozeného jazyka v čestiněcs
dc.title.alternativeSemantic and Contextual Modeling for Czech Natural Language Processingen
dc.typedisertační prácecs
local.files.count5*
local.files.size7428124*
local.has.filesyes*
local.relation.IShttps://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=101841

Files

Original bundle
Showing 1 - 5 out of 5 results
No Thumbnail Available
Name:
summary__sidoj_dizertace_2025_05_en (4).pdf
Size:
789.96 KB
Format:
Adobe Portable Document Format
Description:
VŠKP - příloha
No Thumbnail Available
Name:
DT_Sido_A24P9904P.pdf
Size:
4.75 MB
Format:
Adobe Portable Document Format
Description:
VŠKP
No Thumbnail Available
Name:
PB_Sido_A24P9904P.pdf
Size:
960.98 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby VŠKP
No Thumbnail Available
Name:
PO1_Sido_A24P9904P.pdf
Size:
442.57 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta VŠKP
No Thumbnail Available
Name:
PO2_Sido_A24P9904P.pdf
Size:
195.58 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta VŠKP