Vícejazyčná sémantická podobnost textů

Date issued

2019

Journal Title

Journal ISSN

Volume Title

Publisher

Západočeská univerzita v Plzni

Abstract

Tato práce se zabývá metodami strojového učení bez učitele pro měření sémantické podobnosti textů napříč různými jazyky. Pro monolinguální reprezentaci textu bylo natrénováno několik modelů na korpusu z~Wikipedie. Pro vytvoření jazykově nezávislé reprezentace významu jsou monolinguální sémantické prostory transformovány do společného prostoru pomocí lineární transformace. Práce zkoumá lineární transformace za pomocí metody nejmenších čtverců, kanonické korelační analýzy a ortogonální transformace. Kromě standardní transformace na slovech práce představuje dva nové přístupy, a to transformaci na větách a transformaci Paragraph2Vec modelu. Experimenty jsou provedeny na vícejazyčných datasetech SemEval-2017 a GoranGlavas a je měřena Pearsonova a Spearmanova korelace oproti člověku. Zkoumané metody dosahují slibných výsledků na těchto datasetech.

Description

Subject(s)

zpracování přirozeného jazyka, vícejazyčná sémantická podobnost textů, sémantika, transformace metodou nejmenších čtverců, kanonická korelační analýza, ortogonální transformace, glove, word2vec, fasttext, paragraph2vec, skip-thoughts, semeval, goranglavas

Citation

Collections

OPEN License Selector