Improving Word meaning representations using Wikipedia categories

dc.contributor.authorSvoboda, Lukáš
dc.contributor.authorBrychcín, Tomáš
dc.date.accessioned2019-06-10T10:00:09Z
dc.date.available2019-06-10T10:00:09Z
dc.date.issued2018
dc.description.abstractV tomto článku prezentujeme metody Skip-gram a CBOW pro extrakci reprezentace významu slov rozšířené o globální informaci. Využíváme vlastní korpus, který včetně globální informace generujeme z Wikipedie, kde jsou články organizovány hierarchicky dle kategorií. Tyto kategorie poskytují dodatečné a velmi užitečné informace (popis) o každém článku. Představujeme čtyři nové modely, jak obohatit reprezentaci slovních významů s využitím globální informace. Experimentujeme s anglickou Wikipedií a testujeme naše modely na standardních datových souborech podobnosti slov a korpusu slovních analogií. Navržené modely výrazně překonávají standardní metody reprezentace slov, zejména při trénování na velikostně podobných korpusech a poskytují podobné výsledky ve srovnání s metodami trénovanými na mnohem větších souborech dat. Náš nový přístup ukazuje, že zvyšování množství trénovacích dat nemusí zvyšovat kvalitu reprezentace významu slov tolik, jako je trénování s využitím globální informace, nebo jak se ukazuje u nových přístupů , které pracují s vnitřní informací daného slova na bázi jednotlivých znaků (fastText).cs
dc.description.abstract-translatedIn this paper we extend Skip-Gram and Continuous Bag-of-Words Distributional word representations models via global context information. We use a corpus extracted from Wikipedia, where articles are organized in a hierarchy of categories. These categories provide useful topical information about each article. We present the four new approaches, how to enrich word meaning representation with such information. We experiment with the English Wikipedia and evaluate our models on standard word similarity and word analogy datasets. Proposed models significantly outperform other word representation methods when similar size training data of similar size is used and provide similar performance compared with methods trained on much larger datasets. Our new approach shows, that increasing the amount of unlabelled data does not necessarily increase the performance of word embeddings as much as introducing the global or sub-word information, especially when training time is taken into the consideration.en
dc.format12 s.cs
dc.format.mimetypeapplication/pdf
dc.identifier.citationSVOBODA, L., BRYCHCÍN, T. Improving Word meaning representations using Wikipedia categories. Neural Network World, 2018, roč. 28, č. 6, s. 523-534. ISSN 1210-0552.en
dc.identifier.doi10.14311/NNW.2018.28.029
dc.identifier.issn1210-0552
dc.identifier.obd43926048
dc.identifier.uri2-s2.0-85061489302
dc.identifier.urihttp://hdl.handle.net/11025/34807
dc.language.isoenen
dc.project.IDSGS-2016-018/Datové a softwarové inženýrství pro komplexní aplikacecs
dc.publisherInstitute of Computer Scienceen
dc.rights© Institute of Computer Scienceen
dc.rights.accessopenAccessen
dc.subjectdistribuční sémantikacs
dc.subjectvylepšení word2veccs
dc.subjectvnořená slovacs
dc.subjectglobální informacecs
dc.subjectwikipediacs
dc.subjectCBOWcs
dc.subjectSkip-gramcs
dc.subjectčíselná reprezentace slovcs
dc.subject.translatedWord2vecen
dc.subject.translatedskipgramen
dc.subject.translatedcbowen
dc.subject.translatedimproving distributional word representationen
dc.subject.translatedusing global informationen
dc.subject.translatednew approachen
dc.titleImproving Word meaning representations using Wikipedia categoriesen
dc.title.alternativeVylepšení reprezentace slovních vektorů s využitím kategorií z Wikipediecs
dc.typečlánekcs
dc.typearticleen
dc.type.statusPeer-revieweden
dc.type.versionpublishedVersionen

Files