Modelování sémantiky a kontextu pro zpracování přirozeného jazyka v čestině
| dc.contributor.author | Sido, Jakub | cs |
| dc.date.accepted | 2025-11-25 | |
| dc.date.accessioned | 2026-02-26T23:07:59Z | |
| dc.date.available | 2024-10-11 | |
| dc.date.available | 2026-02-26T23:07:59Z | |
| dc.date.issued | 2025-05-14 | |
| dc.date.submitted | 2025-05-14 | |
| dc.description.abstract | Tato práce se zabývá metodami pro zlepšení výkonu neuronových sítí při zpracování přirozeného jazyka se zaměřením na sémantickou reprezentaci, kontextové porozumění a výpočetní efektivitu. Realizuje řadu experimentů zaměřených na optimalizaci trénování i odvozování, včetně využití kvantizačních technik ke snížení nároků na zdroje a umožnění nasazení na mobilních zařízeních a zařízeních s omezenými zdroji.<br>Zásadním přínosem této práce je vývoj a vyhodnocení CZERT, prvního českého modelu založeného na BERT architektuře, který významně posunul možnosti zpracování přirozeného jazyka v češtině a položil základy pro následný výzkum. V návaznosti na něj zkoumáme architekturu BART v úlohách, jako je sumarizace a sémantická podobnost textů. Stručně také představíme navazující výzkum rozšiřující tyto přístupy na detekci multimodální duplicity ve webových diskusích.<br>Abychom dále podpořili výzkum role kontextu v sémantické reprezentaci, vytvořili jsme ve spolupráci s českými novináři rozsáhlou a kvalitní sadu dat sémantických textových podobností. Tato datová sada má usnadnit vývoj kontextově orientovaných modelů a sloužit jako dlouhodobé měřítko pro hodnocení jejich výkonnosti.<br>Nakonec se zabýváme experimentálními aplikacemi v oblasti žurnalistiky, včetně systémů pro sumarizaci událostí a automatizované zpravodajství. Tyto prototypy ukazují potenciál neuronových modelů pro podporu složitých jazykových úloh ve specializovaných profesních prostředích. Celkově tato práce nabízí jak teoretické poznatky, tak praktický pokrok směrem k vývoji efektivních jazykových technologií s ohledem na kontext. | cs |
| dc.description.abstract-translated | This thesis investigates methods for improving the performance of neural networks in natural language processing, with a particular emphasis on semantic representation, contextual understanding, and computational efficiency. We conduct a series of experiments aimed at optimizing both training and inference, including the use of quantization techniques to reduce resource consumption and enable deployment on mobile and resource-constrained devices.<br>A central contribution of this work is the development and evaluation of CZERT, the first Czech BERT-based model, which significantly advanced NLP capabilities for the Czech language and laid the foundation for subsequent research. Building on this, we explore the BART architecture in tasks such as summarization and semantic textual similarity. We also briefly present follow-up research extending these approaches to multimodal duplicity detection in web-based discussions.<br>To further support research into the role of context in semantic representation, we created a large, high-quality semantic textual similarity dataset in collaboration with Czech journalists. This dataset is designed to facilitate the development of context-aware models and to serve as a long-term benchmark for evaluating their performance.<br>Finally, we examine experimental applications in the journalism domain, including systems for event summarization and automated news reporting. These prototypes demonstrate the potential of neural models to support complex language tasks in specialized professional settings. Overall, this thesis offers both theoretical insights and practical advancements toward the development of efficient, context-aware language technologies. | en |
| dc.description.department | Katedra informatiky a výpočetní techniky | cs |
| dc.description.result | Obhájeno | cs |
| dc.format | 140 stran | |
| dc.identifier | 101841 | |
| dc.identifier.uri | http://hdl.handle.net/11025/67115 | |
| dc.language.iso | en | |
| dc.publisher | Západočeská univerzita v Plzni | cs |
| dc.rights | Plný text práce je přístupný bez omezení | cs |
| dc.rights.access | openAccess | cs |
| dc.subject | Neuronové sítě | cs |
| dc.subject | zpracování přirozeného jazyka | cs |
| dc.subject | velké jazykové modely | cs |
| dc.subject | sémantika | cs |
| dc.subject.translated | Neural Networks | en |
| dc.subject.translated | Natural Language Processing | en |
| dc.subject.translated | Large Language Models | en |
| dc.subject.translated | Semantics | en |
| dc.thesis.degree-grantor | Západočeská univerzita v Plzni. Fakulta aplikovaných věd | cs |
| dc.thesis.degree-level | Doktorský | cs |
| dc.thesis.degree-name | Ph.D. | cs |
| dc.thesis.degree-program | Informatika a výpočetní technika | cs |
| dc.title | Modelování sémantiky a kontextu pro zpracování přirozeného jazyka v čestině | cs |
| dc.title.alternative | Semantic and Contextual Modeling for Czech Natural Language Processing | en |
| dc.type | disertační práce | cs |
| local.files.count | 5 | * |
| local.files.size | 7428124 | * |
| local.has.files | yes | * |
| local.relation.IS | https://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=101841 |
Files
Original bundle
1 - 5 out of 5 results
No Thumbnail Available
- Name:
- summary__sidoj_dizertace_2025_05_en (4).pdf
- Size:
- 789.96 KB
- Format:
- Adobe Portable Document Format
- Description:
- VŠKP - příloha
No Thumbnail Available
- Name:
- DT_Sido_A24P9904P.pdf
- Size:
- 4.75 MB
- Format:
- Adobe Portable Document Format
- Description:
- VŠKP
No Thumbnail Available
- Name:
- PB_Sido_A24P9904P.pdf
- Size:
- 960.98 KB
- Format:
- Adobe Portable Document Format
- Description:
- Průběh obhajoby VŠKP
No Thumbnail Available
- Name:
- PO1_Sido_A24P9904P.pdf
- Size:
- 442.57 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek oponenta VŠKP
No Thumbnail Available
- Name:
- PO2_Sido_A24P9904P.pdf
- Size:
- 195.58 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek oponenta VŠKP