Mezijazyčné metody reprezentace významu textu

Abstract

Sémantická analýza je základní úlohou zpracování přirozeného jazyka. V současné době existuje mnoho vynikajících sémantických modelů založených na hlubokém učení pro angličtinu a další jazyky, pro které existuje hodně trénovacích dat. Pro jazyky s menším množstvím dostupných dat však tyto metody narážejí na své limity. Jeden z možných způsobů, jak tento problém zmírnit, spočívá v mezijazyčných sémantických reprezentacích. Ty vytváří společnou reprezentaci pro mnoho jazyků, takže můžeme použít označená data z datově bohatého jazyka, jako je angličtina, ke zlepšení výkonu modelu v jazyce s málo trénovacími daty.<br>Tato práce se zaměřuje na metody vytváření sémantické reprezentace přenositelné mezi jazyky. První část popisuje techniky strojového učení používané při zpracování přirozeného jazyka, poté následuje popis metod pro vytváření standardních sémantických reprezentací. Následující část popisuje různé techniky pro vytvoření mezijazyčné sémantické reprezentace. Praktická část ukazuje navržené metody pro vytváření společných modelů pro mnoho jazyků pro úlohy značkování sémantických rolí a hledání koreferencí. Zvláštní pozornost je věnována dlouhým sémantickým závislostem v textech. Popsána je také navržená metoda pro detekci lexikálních sémantických změn založená na transformaci sémantických prostorů. S touto metodou jsme vyhráli dvě otevřené úlohy v oblasti detekce lexikálních sémantických změn. <br>Pro značkování sémantických rolí (SRL) jsme úspěšně vytvořili společný model se syntaktickými příznaky založený na Universal Dependencies. Vydali jsme univerzální jazykově agnostický model pro SRL. Později jsme náš model vylepšili pomocí novější architektury Transformer. SRL jsme použili jako jednu z mnoha úloh pro hodnocení jednojazyčného a vícejazyčného Transformeru. Navržený model jsme také spojili s modelem pro aspektově orientovanou analýzu sentimentu a úspěšně jsme zlepšili výsledky v této úloze.<br>Navrhli jsme rozšíření standardního end-to-end modelu pro hledání koreferencí. Konkrétně se jedná o společné mezijazyčné trénování, začlenění syntaktických informací, modelování singletonů, reprezentaci zmínek pomocí syntaktického kořene a práci s dlouhými závislostmi. Účastnili jsme se několika soutěží při konferenci CRAC. V žádné jsme nezvítězili. Dosáhli jsme však nejlepších výsledků pro podmnožinu datasetů (většinou datasety bez označených singletonů a také některé menší datasety díky efektivnímu spojenému trénování). Výsledky našeho hlubšího vyhodnocení však naznačují, že na jediném vyhodnocení modelu se srovnatelnou velikostí dosahuje náš model lepších výsledků než vítězný systém soutěže CRAC 2023.

Description

Subject(s)

mezijazyčné modely, Transformer, značkování sémantických rolí, hledání koreferencí, detekce sémantických změn

Citation