Modelování sémantiky a kontextu pro zpracování přirozeného jazyka v čestině

Sido, Jakub

Modelování sémantiky a kontextu pro zpracování přirozeného jazyka v čestině

dc.contributor.author	Sido, Jakub	cs
dc.date.accepted	2025-11-25
dc.date.accessioned	2026-02-26T23:07:59Z
dc.date.available	2024-10-11
dc.date.available	2026-02-26T23:07:59Z
dc.date.issued	2025-05-14
dc.date.submitted	2025-05-14
dc.description.abstract	Tato práce se zabývá metodami pro zlepšení výkonu neuronových sítí při zpracování přirozeného jazyka se zaměřením na sémantickou reprezentaci, kontextové porozumění a výpočetní efektivitu. Realizuje řadu experimentů zaměřených na optimalizaci trénování i odvozování, včetně využití kvantizačních technik ke snížení nároků na zdroje a umožnění nasazení na mobilních zařízeních a zařízeních s omezenými zdroji.<br>Zásadním přínosem této práce je vývoj a vyhodnocení CZERT, prvního českého modelu založeného na BERT architektuře, který významně posunul možnosti zpracování přirozeného jazyka v češtině a položil základy pro následný výzkum. V návaznosti na něj zkoumáme architekturu BART v úlohách, jako je sumarizace a sémantická podobnost textů. Stručně také představíme navazující výzkum rozšiřující tyto přístupy na detekci multimodální duplicity ve webových diskusích.<br>Abychom dále podpořili výzkum role kontextu v sémantické reprezentaci, vytvořili jsme ve spolupráci s českými novináři rozsáhlou a kvalitní sadu dat sémantických textových podobností. Tato datová sada má usnadnit vývoj kontextově orientovaných modelů a sloužit jako dlouhodobé měřítko pro hodnocení jejich výkonnosti.<br>Nakonec se zabýváme experimentálními aplikacemi v oblasti žurnalistiky, včetně systémů pro sumarizaci událostí a automatizované zpravodajství. Tyto prototypy ukazují potenciál neuronových modelů pro podporu složitých jazykových úloh ve specializovaných profesních prostředích. Celkově tato práce nabízí jak teoretické poznatky, tak praktický pokrok směrem k vývoji efektivních jazykových technologií s ohledem na kontext.	cs
dc.description.abstract-translated	This thesis investigates methods for improving the performance of neural networks in natural language processing, with a particular emphasis on semantic representation, contextual understanding, and computational efficiency. We conduct a series of experiments aimed at optimizing both training and inference, including the use of quantization techniques to reduce resource consumption and enable deployment on mobile and resource-constrained devices.<br>A central contribution of this work is the development and evaluation of CZERT, the first Czech BERT-based model, which significantly advanced NLP capabilities for the Czech language and laid the foundation for subsequent research. Building on this, we explore the BART architecture in tasks such as summarization and semantic textual similarity. We also briefly present follow-up research extending these approaches to multimodal duplicity detection in web-based discussions.<br>To further support research into the role of context in semantic representation, we created a large, high-quality semantic textual similarity dataset in collaboration with Czech journalists. This dataset is designed to facilitate the development of context-aware models and to serve as a long-term benchmark for evaluating their performance.<br>Finally, we examine experimental applications in the journalism domain, including systems for event summarization and automated news reporting. These prototypes demonstrate the potential of neural models to support complex language tasks in specialized professional settings. Overall, this thesis offers both theoretical insights and practical advancements toward the development of efficient, context-aware language technologies.	en
dc.description.department	Katedra informatiky a výpočetní techniky	cs
dc.description.result	Obhájeno	cs
dc.format	140 stran
dc.identifier	101841
dc.identifier.uri	http://hdl.handle.net/11025/67115
dc.language.iso	en
dc.publisher	Západočeská univerzita v Plzni	cs
dc.rights	Plný text práce je přístupný bez omezení	cs
dc.rights.access	openAccess	cs
dc.subject	Neuronové sítě	cs
dc.subject	zpracování přirozeného jazyka	cs
dc.subject	velké jazykové modely	cs
dc.subject	sémantika	cs
dc.subject.translated	Neural Networks	en
dc.subject.translated	Natural Language Processing	en
dc.subject.translated	Large Language Models	en
dc.subject.translated	Semantics	en
dc.thesis.degree-grantor	Západočeská univerzita v Plzni. Fakulta aplikovaných věd	cs
dc.thesis.degree-level	Doktorský	cs
dc.thesis.degree-name	Ph.D.	cs
dc.thesis.degree-program	Informatika a výpočetní technika	cs
dc.title	Modelování sémantiky a kontextu pro zpracování přirozeného jazyka v čestině	cs
dc.title.alternative	Semantic and Contextual Modeling for Czech Natural Language Processing	en
dc.type	disertační práce	cs
local.files.count	5	*
local.files.size	7428124	*
local.has.files	yes	*
local.relation.IS	https://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=101841

Files

Original bundle

Showing 1 - 5 out of 5 results

Name:: summary__sidoj_dizertace_2025_05_en (4).pdf
Size:: 789.96 KB
Format:: Adobe Portable Document Format
Description:: VŠKP - příloha

Download

Name:: DT_Sido_A24P9904P.pdf
Size:: 4.75 MB
Format:: Adobe Portable Document Format
Description:: VŠKP

Download

Name:: PB_Sido_A24P9904P.pdf
Size:: 960.98 KB
Format:: Adobe Portable Document Format
Description:: Průběh obhajoby VŠKP

Download

Name:: PO1_Sido_A24P9904P.pdf
Size:: 442.57 KB
Format:: Adobe Portable Document Format
Description:: Posudek oponenta VŠKP

Download

Name:: PO2_Sido_A24P9904P.pdf
Size:: 195.58 KB
Format:: Adobe Portable Document Format
Description:: Posudek oponenta VŠKP

Download

Collections

Dissertations (KIV)