Mezijazyčné metody reprezentace významu textu

dc.contributor.authorPražák, Ondřejcs
dc.date.accepted2025-11-25
dc.date.accessioned2026-02-26T23:07:35Z
dc.date.available2023-01-09
dc.date.available2026-02-26T23:07:35Z
dc.date.issued2025-06-03
dc.date.submitted2025-06-03
dc.description.abstractSémantická analýza je základní úlohou zpracování přirozeného jazyka. V současné době existuje mnoho vynikajících sémantických modelů založených na hlubokém učení pro angličtinu a další jazyky, pro které existuje hodně trénovacích dat. Pro jazyky s menším množstvím dostupných dat však tyto metody narážejí na své limity. Jeden z možných způsobů, jak tento problém zmírnit, spočívá v mezijazyčných sémantických reprezentacích. Ty vytváří společnou reprezentaci pro mnoho jazyků, takže můžeme použít označená data z datově bohatého jazyka, jako je angličtina, ke zlepšení výkonu modelu v jazyce s málo trénovacími daty.<br>Tato práce se zaměřuje na metody vytváření sémantické reprezentace přenositelné mezi jazyky. První část popisuje techniky strojového učení používané při zpracování přirozeného jazyka, poté následuje popis metod pro vytváření standardních sémantických reprezentací. Následující část popisuje různé techniky pro vytvoření mezijazyčné sémantické reprezentace. Praktická část ukazuje navržené metody pro vytváření společných modelů pro mnoho jazyků pro úlohy značkování sémantických rolí a hledání koreferencí. Zvláštní pozornost je věnována dlouhým sémantickým závislostem v textech. Popsána je také navržená metoda pro detekci lexikálních sémantických změn založená na transformaci sémantických prostorů. S touto metodou jsme vyhráli dvě otevřené úlohy v oblasti detekce lexikálních sémantických změn. <br>Pro značkování sémantických rolí (SRL) jsme úspěšně vytvořili společný model se syntaktickými příznaky založený na Universal Dependencies. Vydali jsme univerzální jazykově agnostický model pro SRL. Později jsme náš model vylepšili pomocí novější architektury Transformer. SRL jsme použili jako jednu z mnoha úloh pro hodnocení jednojazyčného a vícejazyčného Transformeru. Navržený model jsme také spojili s modelem pro aspektově orientovanou analýzu sentimentu a úspěšně jsme zlepšili výsledky v této úloze.<br>Navrhli jsme rozšíření standardního end-to-end modelu pro hledání koreferencí. Konkrétně se jedná o společné mezijazyčné trénování, začlenění syntaktických informací, modelování singletonů, reprezentaci zmínek pomocí syntaktického kořene a práci s dlouhými závislostmi. Účastnili jsme se několika soutěží při konferenci CRAC. V žádné jsme nezvítězili. Dosáhli jsme však nejlepších výsledků pro podmnožinu datasetů (většinou datasety bez označených singletonů a také některé menší datasety díky efektivnímu spojenému trénování). Výsledky našeho hlubšího vyhodnocení však naznačují, že na jediném vyhodnocení modelu se srovnatelnou velikostí dosahuje náš model lepších výsledků než vítězný systém soutěže CRAC 2023.cs
dc.description.abstract-translatedSemantic analysis is the elementary task of natural language processing (NLP). Nowadays, many outstanding semantic models are based on deep learning for English and other high-resource languages. However, these methods reach their limits for languages with less data available. One possible way to mitigate this lies in cross-lingual semantic representations. It creates a joint representation for many languages, and it often uses training data from resourceful languages like English to improve the performance of the model in low-resource languages.<br>This work focuses on recent work in Deep Learning methods for creating semantic representation and transferring knowledge between languages. The first part describes machine learning techniques used in natural language processing, and then methods for creating standard semantic representations follow. The next part describes various techniques to obtain cross-lingual semantic representation. The practical part shows our methods to create joined models for many languages for semantic role labeling (SRL) and coreference resolution tasks. Special attention is paid to long-semantic dependencies in texts. Our lexical semantic change detection method, based on cross-lingual embedding space transformation, is also described. With this method, we have won two shared tasks in lexical semantic change detection. <br>In semantic role labelling, we created a joint model with syntactic features based on Universal Dependencies. We released a universal language-agnostic model from SRL. Later, we updated our model to use a more recent neural-based model, Transformer. We used SRL as one of many tasks for evaluating monolingual and multilingual Transformers. We also combined our model with a model for aspect-based sentiment analysis, and we successfully improved the results in this task.<br>We proposed the extensions of the standard end-to-end model for coreference resolution. Namely, joined cross-lingual training, singletons modeling, headword mention representation, and dealing with long-distance dependencies. We participated in several CRAC shared tasks. We did not win any of them. However, our system achieved the best results for some datasets (mainly datasets without singleton annotations and also some smaller datasets due to effective joint training). However, our deeper evaluation suggests that our model achieves better results than the winning system of the CRAC 2023 shared task on a single model evaluated with a comparable size.en
dc.description.departmentKatedra informatiky a výpočetní technikycs
dc.description.resultObhájenocs
dc.format166
dc.identifier101183
dc.identifier.urihttp://hdl.handle.net/11025/67114
dc.language.isoen
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezenícs
dc.rights.accessopenAccesscs
dc.subjectmezijazyčné modelycs
dc.subjectTransformercs
dc.subjectznačkování sémantických rolícs
dc.subjecthledání koreferencícs
dc.subjectdetekce sémantických změncs
dc.subject.translatedcross-lingual modelsen
dc.subject.translatedTransformersen
dc.subject.translatedsemantic role labelingen
dc.subject.translatedcoreference resolutionen
dc.subject.translatedsemantic change detectionen
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-levelDoktorskýcs
dc.thesis.degree-namePh.D.cs
dc.thesis.degree-programInformatika a výpočetní technikacs
dc.titleMezijazyčné metody reprezentace významu textucs
dc.title.alternativeCross-lingual Methods for Semantic Representationsen
dc.typedisertační prácecs
local.files.count5*
local.files.size6764341*
local.has.filesyes*
local.relation.IShttps://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=101183

Files

Original bundle
Showing 1 - 5 out of 5 results
No Thumbnail Available
Name:
DT_Prazak_A24P9903P.pdf
Size:
3.26 MB
Format:
Adobe Portable Document Format
Description:
VŠKP
No Thumbnail Available
Name:
prazak_phd_thesis_summary.pdf
Size:
1.73 MB
Format:
Adobe Portable Document Format
Description:
VŠKP - příloha
No Thumbnail Available
Name:
PB_Prazak_A24P9903P.pdf
Size:
966.77 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby VŠKP
No Thumbnail Available
Name:
PO1_Prazak_A24P9903P.pdf
Size:
302.2 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta VŠKP
No Thumbnail Available
Name:
PO2_Prazak_A24P9903P.pdf
Size:
228.17 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta VŠKP