Modelování sémantiky a kontextu pro zpracování přirozeného jazyka v čestině

Sido, Jakub

Modelování sémantiky a kontextu pro zpracování přirozeného jazyka v čestině

Files

summary__sidoj_dizertace_2025_05_en (4).pdf (789.96 KB)

DT_Sido_A24P9904P.pdf (4.75 MB)

PB_Sido_A24P9904P.pdf (960.98 KB)

PO1_Sido_A24P9904P.pdf (442.57 KB)

PO2_Sido_A24P9904P.pdf (195.58 KB)

Date issued

2025-05-14

Authors

Sido, Jakub

Publisher

Západočeská univerzita v Plzni

Abstract

Tato práce se zabývá metodami pro zlepšení výkonu neuronových sítí při zpracování přirozeného jazyka se zaměřením na sémantickou reprezentaci, kontextové porozumění a výpočetní efektivitu. Realizuje řadu experimentů zaměřených na optimalizaci trénování i odvozování, včetně využití kvantizačních technik ke snížení nároků na zdroje a umožnění nasazení na mobilních zařízeních a zařízeních s omezenými zdroji.<br>Zásadním přínosem této práce je vývoj a vyhodnocení CZERT, prvního českého modelu založeného na BERT architektuře, který významně posunul možnosti zpracování přirozeného jazyka v češtině a položil základy pro následný výzkum. V návaznosti na něj zkoumáme architekturu BART v úlohách, jako je sumarizace a sémantická podobnost textů. Stručně také představíme navazující výzkum rozšiřující tyto přístupy na detekci multimodální duplicity ve webových diskusích.<br>Abychom dále podpořili výzkum role kontextu v sémantické reprezentaci, vytvořili jsme ve spolupráci s českými novináři rozsáhlou a kvalitní sadu dat sémantických textových podobností. Tato datová sada má usnadnit vývoj kontextově orientovaných modelů a sloužit jako dlouhodobé měřítko pro hodnocení jejich výkonnosti.<br>Nakonec se zabýváme experimentálními aplikacemi v oblasti žurnalistiky, včetně systémů pro sumarizaci událostí a automatizované zpravodajství. Tyto prototypy ukazují potenciál neuronových modelů pro podporu složitých jazykových úloh ve specializovaných profesních prostředích. Celkově tato práce nabízí jak teoretické poznatky, tak praktický pokrok směrem k vývoji efektivních jazykových technologií s ohledem na kontext.

Subject(s)

Neuronové sítě, zpracování přirozeného jazyka, velké jazykové modely, sémantika

Item identifier

http://hdl.handle.net/11025/67115

Collections

Dissertations (KIV)

Show full item record

Modelování sémantiky a kontextu pro zpracování přirozeného jazyka v čestině

Files

Date issued

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Subject(s)

Citation

Item identifier

Collections