Mezijazyčné metody reprezentace významu textu
| dc.contributor.author | Pražák, Ondřej | cs |
| dc.date.accepted | 2025-11-25 | |
| dc.date.accessioned | 2026-02-26T23:07:35Z | |
| dc.date.available | 2023-01-09 | |
| dc.date.available | 2026-02-26T23:07:35Z | |
| dc.date.issued | 2025-06-03 | |
| dc.date.submitted | 2025-06-03 | |
| dc.description.abstract | Sémantická analýza je základní úlohou zpracování přirozeného jazyka. V současné době existuje mnoho vynikajících sémantických modelů založených na hlubokém učení pro angličtinu a další jazyky, pro které existuje hodně trénovacích dat. Pro jazyky s menším množstvím dostupných dat však tyto metody narážejí na své limity. Jeden z možných způsobů, jak tento problém zmírnit, spočívá v mezijazyčných sémantických reprezentacích. Ty vytváří společnou reprezentaci pro mnoho jazyků, takže můžeme použít označená data z datově bohatého jazyka, jako je angličtina, ke zlepšení výkonu modelu v jazyce s málo trénovacími daty.<br>Tato práce se zaměřuje na metody vytváření sémantické reprezentace přenositelné mezi jazyky. První část popisuje techniky strojového učení používané při zpracování přirozeného jazyka, poté následuje popis metod pro vytváření standardních sémantických reprezentací. Následující část popisuje různé techniky pro vytvoření mezijazyčné sémantické reprezentace. Praktická část ukazuje navržené metody pro vytváření společných modelů pro mnoho jazyků pro úlohy značkování sémantických rolí a hledání koreferencí. Zvláštní pozornost je věnována dlouhým sémantickým závislostem v textech. Popsána je také navržená metoda pro detekci lexikálních sémantických změn založená na transformaci sémantických prostorů. S touto metodou jsme vyhráli dvě otevřené úlohy v oblasti detekce lexikálních sémantických změn. <br>Pro značkování sémantických rolí (SRL) jsme úspěšně vytvořili společný model se syntaktickými příznaky založený na Universal Dependencies. Vydali jsme univerzální jazykově agnostický model pro SRL. Později jsme náš model vylepšili pomocí novější architektury Transformer. SRL jsme použili jako jednu z mnoha úloh pro hodnocení jednojazyčného a vícejazyčného Transformeru. Navržený model jsme také spojili s modelem pro aspektově orientovanou analýzu sentimentu a úspěšně jsme zlepšili výsledky v této úloze.<br>Navrhli jsme rozšíření standardního end-to-end modelu pro hledání koreferencí. Konkrétně se jedná o společné mezijazyčné trénování, začlenění syntaktických informací, modelování singletonů, reprezentaci zmínek pomocí syntaktického kořene a práci s dlouhými závislostmi. Účastnili jsme se několika soutěží při konferenci CRAC. V žádné jsme nezvítězili. Dosáhli jsme však nejlepších výsledků pro podmnožinu datasetů (většinou datasety bez označených singletonů a také některé menší datasety díky efektivnímu spojenému trénování). Výsledky našeho hlubšího vyhodnocení však naznačují, že na jediném vyhodnocení modelu se srovnatelnou velikostí dosahuje náš model lepších výsledků než vítězný systém soutěže CRAC 2023. | cs |
| dc.description.abstract-translated | Semantic analysis is the elementary task of natural language processing (NLP). Nowadays, many outstanding semantic models are based on deep learning for English and other high-resource languages. However, these methods reach their limits for languages with less data available. One possible way to mitigate this lies in cross-lingual semantic representations. It creates a joint representation for many languages, and it often uses training data from resourceful languages like English to improve the performance of the model in low-resource languages.<br>This work focuses on recent work in Deep Learning methods for creating semantic representation and transferring knowledge between languages. The first part describes machine learning techniques used in natural language processing, and then methods for creating standard semantic representations follow. The next part describes various techniques to obtain cross-lingual semantic representation. The practical part shows our methods to create joined models for many languages for semantic role labeling (SRL) and coreference resolution tasks. Special attention is paid to long-semantic dependencies in texts. Our lexical semantic change detection method, based on cross-lingual embedding space transformation, is also described. With this method, we have won two shared tasks in lexical semantic change detection. <br>In semantic role labelling, we created a joint model with syntactic features based on Universal Dependencies. We released a universal language-agnostic model from SRL. Later, we updated our model to use a more recent neural-based model, Transformer. We used SRL as one of many tasks for evaluating monolingual and multilingual Transformers. We also combined our model with a model for aspect-based sentiment analysis, and we successfully improved the results in this task.<br>We proposed the extensions of the standard end-to-end model for coreference resolution. Namely, joined cross-lingual training, singletons modeling, headword mention representation, and dealing with long-distance dependencies. We participated in several CRAC shared tasks. We did not win any of them. However, our system achieved the best results for some datasets (mainly datasets without singleton annotations and also some smaller datasets due to effective joint training). However, our deeper evaluation suggests that our model achieves better results than the winning system of the CRAC 2023 shared task on a single model evaluated with a comparable size. | en |
| dc.description.department | Katedra informatiky a výpočetní techniky | cs |
| dc.description.result | Obhájeno | cs |
| dc.format | 166 | |
| dc.identifier | 101183 | |
| dc.identifier.uri | http://hdl.handle.net/11025/67114 | |
| dc.language.iso | en | |
| dc.publisher | Západočeská univerzita v Plzni | cs |
| dc.rights | Plný text práce je přístupný bez omezení | cs |
| dc.rights.access | openAccess | cs |
| dc.subject | mezijazyčné modely | cs |
| dc.subject | Transformer | cs |
| dc.subject | značkování sémantických rolí | cs |
| dc.subject | hledání koreferencí | cs |
| dc.subject | detekce sémantických změn | cs |
| dc.subject.translated | cross-lingual models | en |
| dc.subject.translated | Transformers | en |
| dc.subject.translated | semantic role labeling | en |
| dc.subject.translated | coreference resolution | en |
| dc.subject.translated | semantic change detection | en |
| dc.thesis.degree-grantor | Západočeská univerzita v Plzni. Fakulta aplikovaných věd | cs |
| dc.thesis.degree-level | Doktorský | cs |
| dc.thesis.degree-name | Ph.D. | cs |
| dc.thesis.degree-program | Informatika a výpočetní technika | cs |
| dc.title | Mezijazyčné metody reprezentace významu textu | cs |
| dc.title.alternative | Cross-lingual Methods for Semantic Representations | en |
| dc.type | disertační práce | cs |
| local.files.count | 5 | * |
| local.files.size | 6764341 | * |
| local.has.files | yes | * |
| local.relation.IS | https://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=101183 |
Files
Original bundle
1 - 5 out of 5 results
No Thumbnail Available
- Name:
- DT_Prazak_A24P9903P.pdf
- Size:
- 3.26 MB
- Format:
- Adobe Portable Document Format
- Description:
- VŠKP
No Thumbnail Available
- Name:
- prazak_phd_thesis_summary.pdf
- Size:
- 1.73 MB
- Format:
- Adobe Portable Document Format
- Description:
- VŠKP - příloha
No Thumbnail Available
- Name:
- PB_Prazak_A24P9903P.pdf
- Size:
- 966.77 KB
- Format:
- Adobe Portable Document Format
- Description:
- Průběh obhajoby VŠKP
No Thumbnail Available
- Name:
- PO1_Prazak_A24P9903P.pdf
- Size:
- 302.2 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek oponenta VŠKP
No Thumbnail Available
- Name:
- PO2_Prazak_A24P9903P.pdf
- Size:
- 228.17 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek oponenta VŠKP