Evaluation of Croatian Word Embeddings
Date issued
2018
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Springer Proceedings in Mathematics & Statistics
Abstract
Chorvatština je malý jazyk a patří mezi tzv. flektivní slovanské jazyky. V současné době se výzkum zaměřuje převážně na angličtinu. Vytvořili jsme proto korpus slovních analogií, který byl postaven na základě originálního korpusu pro angličtinu, jež je součástí systému Word2Vec. Navíc jsme přidali třídy specifické pouze pro slovanské jazyky. Dále jsme vytvořili chorvatské korpusy WordSim353 a RG65 pro základní vyhodnocení slovních podobností. Porovnávali jsme vytvořené datové sady se dvěma populárními modely pro slovní reprezentaci založenými na nástroji Word2Vec a fastText. Modely byly natrénovány na textovém korpusu o velikosti 1.37 miliardy slov a testovány na novém robustním korpusu slovních analogií v chorvatském jazyce. Výsledky ukazují, že modely jsou schopny vytvořit vektory se smysluplným zastoupením slov. Tento výzkum ukázal, že volné slovní pořadí a vyšší morfologická složitost chorvatského jazyka ovlivňují kvalitu výsledných slovních vektorů.
Description
Subject(s)
korpus, chorvatština, slovní analogie, word2vec, fastText, slovní vektory, text
Citation
TOMICZEK, P. Duffing Equation with Nonlinearities Between Eigenvalues. In: Nonlinear Analysis and Boundary Value Problems. Cham: Springer Proceedings in Mathematics & Statistics, 2019. s. 199-209. ISBN 978-3-030-26986-9, ISSN 2194-1009.