Cross-lingual word analogies using linear transformations between semantic spaces

Date issued

2019

Journal Title

Journal ISSN

Volume Title

Publisher

Elsevier

Abstract

Schopnost reprezentovat význam slov je jedna ze základních úloh porozumění přirozenému jazyku (NLU) s aplikacemi do strojového překladu, sumarizace, odpovídání na otázky, vyhledávání informací atd. Poptávka po schopnosti zpracovávat multilinguální kontexty a přenášet znalosti mezi jazyky ovlivnila výzkum v oblasti kroslinguálních sémantických prostorů, které reprezentují význam slov napříč různými jazyky. S rostoucím zájmem o kroslinguální reprezentace je čím dál tím více důležité zkoumat vhodné způsoby evaluace. Evaluace založená na slovních analogiích je jedna z nejčastějších nástrojů pro evaluaci lingvistických vztahů (např. vztah muž vs. žena nebo vztahy mezi slovesnými časy) zakódovaných v monolinguálních reprezentacích významu. V tomto článku jdeme dál a zobecňujeme evaluaci slovních analogií na více jazyků. Přinášíme tak nový evaluační nástroj pro kroslinguální sémantické prostory. Náš přístup umožňuje zkoumání kroslinguálních projekcí a jejich vlivu na různé aspekty významu. Pomáháme tak odhalit slabiny nebo silné stránky kroslinguálních metod, a to dříve, než jsou použity ve finálních inteligentních systémech. Experimentujeme se šesti jazyky z různých rodin včetně angličtiny, němčiny, španělštiny, italštiny, češtiny a chorvatštiny. Nejnovější monolinguální sémantické prostory jsou transformovány do sdíleného prostoru pomocí slovníku překladů. Porovnáváme několik lineárních transformací a experimentujeme s monolinguálními (bez transformace), bilinguálními (jeden sémantický prostor je transformován do druhého) a multilinguálními (všechny sémantické prostory jsou transformovány do angličtiny) verzemi sémantických prostorů. Ukazujeme, že testované lineární transformace ponechávají vztahy mezi slovy (slovní analogie) a vedou k velmi zajímavým výsledkům. Dosahujeme průměrných přesností 51,1 % pro monolinguální, 43,1 % pro bilinguální a 38,2 % pro multilinguální sémantické prostory.

Description

Subject(s)

Slovní analogie, Sémantické prostory, Lineární transformace, Slovní reprezentace, Kroslinguální sémantické prostory

Citation

HEIGL, M., DÖRR, L., TIEFNIG, N., FIALA, D., SCHRAMM, M. A resource-preserving self-regulating Uncoupled MAC algorithm to be applied in incident detection. Computers & Security, 2019, roč. 85, č. AUG 2019, s. 270-287. ISSN 0167-4048.
OPEN License Selector