Improving Word meaning representations using Wikipedia categories
Date issued
2018
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Institute of Computer Science
Abstract
V tomto článku prezentujeme metody Skip-gram a CBOW pro extrakci reprezentace významu slov rozšířené o globální informaci. Využíváme vlastní korpus, který včetně globální informace generujeme z Wikipedie, kde jsou články organizovány hierarchicky dle kategorií. Tyto kategorie poskytují dodatečné a velmi užitečné informace (popis) o každém článku. Představujeme čtyři nové modely, jak obohatit reprezentaci slovních významů s využitím globální informace. Experimentujeme s anglickou Wikipedií a testujeme naše modely na standardních datových souborech podobnosti slov a korpusu slovních analogií. Navržené modely výrazně překonávají standardní metody reprezentace slov, zejména při trénování na velikostně podobných korpusech a poskytují podobné výsledky ve srovnání s metodami trénovanými na mnohem větších souborech dat. Náš nový přístup ukazuje, že zvyšování množství trénovacích dat nemusí zvyšovat kvalitu reprezentace významu slov tolik, jako je trénování s využitím globální informace, nebo jak se ukazuje u nových přístupů , které pracují s vnitřní informací daného slova na bázi jednotlivých znaků (fastText).
Description
Subject(s)
distribuční sémantika, vylepšení word2vec, vnořená slova, globální informace, wikipedia, CBOW, Skip-gram, číselná reprezentace slov
Citation
SVOBODA, L., BRYCHCÍN, T. Improving Word meaning representations using Wikipedia categories. Neural Network World, 2018, roč. 28, č. 6, s. 523-534. ISSN 1210-0552.