Mezijazyčné metody reprezentace významu textu

Pražák, Ondřej

Mezijazyčné metody reprezentace významu textu

dc.contributor.author	Pražák, Ondřej	cs
dc.date.accepted	2025-11-25
dc.date.accessioned	2026-02-26T23:07:35Z
dc.date.available	2023-01-09
dc.date.available	2026-02-26T23:07:35Z
dc.date.issued	2025-06-03
dc.date.submitted	2025-06-03
dc.description.abstract	Sémantická analýza je základní úlohou zpracování přirozeného jazyka. V současné době existuje mnoho vynikajících sémantických modelů založených na hlubokém učení pro angličtinu a další jazyky, pro které existuje hodně trénovacích dat. Pro jazyky s menším množstvím dostupných dat však tyto metody narážejí na své limity. Jeden z možných způsobů, jak tento problém zmírnit, spočívá v mezijazyčných sémantických reprezentacích. Ty vytváří společnou reprezentaci pro mnoho jazyků, takže můžeme použít označená data z datově bohatého jazyka, jako je angličtina, ke zlepšení výkonu modelu v jazyce s málo trénovacími daty.<br>Tato práce se zaměřuje na metody vytváření sémantické reprezentace přenositelné mezi jazyky. První část popisuje techniky strojového učení používané při zpracování přirozeného jazyka, poté následuje popis metod pro vytváření standardních sémantických reprezentací. Následující část popisuje různé techniky pro vytvoření mezijazyčné sémantické reprezentace. Praktická část ukazuje navržené metody pro vytváření společných modelů pro mnoho jazyků pro úlohy značkování sémantických rolí a hledání koreferencí. Zvláštní pozornost je věnována dlouhým sémantickým závislostem v textech. Popsána je také navržená metoda pro detekci lexikálních sémantických změn založená na transformaci sémantických prostorů. S touto metodou jsme vyhráli dvě otevřené úlohy v oblasti detekce lexikálních sémantických změn. <br>Pro značkování sémantických rolí (SRL) jsme úspěšně vytvořili společný model se syntaktickými příznaky založený na Universal Dependencies. Vydali jsme univerzální jazykově agnostický model pro SRL. Později jsme náš model vylepšili pomocí novější architektury Transformer. SRL jsme použili jako jednu z mnoha úloh pro hodnocení jednojazyčného a vícejazyčného Transformeru. Navržený model jsme také spojili s modelem pro aspektově orientovanou analýzu sentimentu a úspěšně jsme zlepšili výsledky v této úloze.<br>Navrhli jsme rozšíření standardního end-to-end modelu pro hledání koreferencí. Konkrétně se jedná o společné mezijazyčné trénování, začlenění syntaktických informací, modelování singletonů, reprezentaci zmínek pomocí syntaktického kořene a práci s dlouhými závislostmi. Účastnili jsme se několika soutěží při konferenci CRAC. V žádné jsme nezvítězili. Dosáhli jsme však nejlepších výsledků pro podmnožinu datasetů (většinou datasety bez označených singletonů a také některé menší datasety díky efektivnímu spojenému trénování). Výsledky našeho hlubšího vyhodnocení však naznačují, že na jediném vyhodnocení modelu se srovnatelnou velikostí dosahuje náš model lepších výsledků než vítězný systém soutěže CRAC 2023.	cs
dc.description.abstract-translated	Semantic analysis is the elementary task of natural language processing (NLP). Nowadays, many outstanding semantic models are based on deep learning for English and other high-resource languages. However, these methods reach their limits for languages with less data available. One possible way to mitigate this lies in cross-lingual semantic representations. It creates a joint representation for many languages, and it often uses training data from resourceful languages like English to improve the performance of the model in low-resource languages.<br>This work focuses on recent work in Deep Learning methods for creating semantic representation and transferring knowledge between languages. The first part describes machine learning techniques used in natural language processing, and then methods for creating standard semantic representations follow. The next part describes various techniques to obtain cross-lingual semantic representation. The practical part shows our methods to create joined models for many languages for semantic role labeling (SRL) and coreference resolution tasks. Special attention is paid to long-semantic dependencies in texts. Our lexical semantic change detection method, based on cross-lingual embedding space transformation, is also described. With this method, we have won two shared tasks in lexical semantic change detection. <br>In semantic role labelling, we created a joint model with syntactic features based on Universal Dependencies. We released a universal language-agnostic model from SRL. Later, we updated our model to use a more recent neural-based model, Transformer. We used SRL as one of many tasks for evaluating monolingual and multilingual Transformers. We also combined our model with a model for aspect-based sentiment analysis, and we successfully improved the results in this task.<br>We proposed the extensions of the standard end-to-end model for coreference resolution. Namely, joined cross-lingual training, singletons modeling, headword mention representation, and dealing with long-distance dependencies. We participated in several CRAC shared tasks. We did not win any of them. However, our system achieved the best results for some datasets (mainly datasets without singleton annotations and also some smaller datasets due to effective joint training). However, our deeper evaluation suggests that our model achieves better results than the winning system of the CRAC 2023 shared task on a single model evaluated with a comparable size.	en
dc.description.department	Katedra informatiky a výpočetní techniky	cs
dc.description.result	Obhájeno	cs
dc.format	166
dc.identifier	101183
dc.identifier.uri	http://hdl.handle.net/11025/67114
dc.language.iso	en
dc.publisher	Západočeská univerzita v Plzni	cs
dc.rights	Plný text práce je přístupný bez omezení	cs
dc.rights.access	openAccess	cs
dc.subject	mezijazyčné modely	cs
dc.subject	Transformer	cs
dc.subject	značkování sémantických rolí	cs
dc.subject	hledání koreferencí	cs
dc.subject	detekce sémantických změn	cs
dc.subject.translated	cross-lingual models	en
dc.subject.translated	Transformers	en
dc.subject.translated	semantic role labeling	en
dc.subject.translated	coreference resolution	en
dc.subject.translated	semantic change detection	en
dc.thesis.degree-grantor	Západočeská univerzita v Plzni. Fakulta aplikovaných věd	cs
dc.thesis.degree-level	Doktorský	cs
dc.thesis.degree-name	Ph.D.	cs
dc.thesis.degree-program	Informatika a výpočetní technika	cs
dc.title	Mezijazyčné metody reprezentace významu textu	cs
dc.title.alternative	Cross-lingual Methods for Semantic Representations	en
dc.type	disertační práce	cs
local.files.count	5	*
local.files.size	6764341	*
local.has.files	yes	*
local.relation.IS	https://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=101183

Files

Original bundle

Showing 1 - 5 out of 5 results

Name:: DT_Prazak_A24P9903P.pdf
Size:: 3.26 MB
Format:: Adobe Portable Document Format
Description:: VŠKP

Download

Name:: prazak_phd_thesis_summary.pdf
Size:: 1.73 MB
Format:: Adobe Portable Document Format
Description:: VŠKP - příloha

Download

Name:: PB_Prazak_A24P9903P.pdf
Size:: 966.77 KB
Format:: Adobe Portable Document Format
Description:: Průběh obhajoby VŠKP

Download

Name:: PO1_Prazak_A24P9903P.pdf
Size:: 302.2 KB
Format:: Adobe Portable Document Format
Description:: Posudek oponenta VŠKP

Download

Name:: PO2_Prazak_A24P9903P.pdf
Size:: 228.17 KB
Format:: Adobe Portable Document Format
Description:: Posudek oponenta VŠKP

Download

Collections

Dissertations (KIV)