Evaluation of Croatian Word Embeddings

Date issued

2018

Journal Title

Journal ISSN

Volume Title

Publisher

Springer Proceedings in Mathematics & Statistics

Abstract

Chorvatština je malý jazyk a patří mezi tzv. flektivní slovanské jazyky. V současné době se výzkum zaměřuje převážně na angličtinu. Vytvořili jsme proto korpus slovních analogií, který byl postaven na základě originálního korpusu pro angličtinu, jež je součástí systému Word2Vec. Navíc jsme přidali třídy specifické pouze pro slovanské jazyky. Dále jsme vytvořili chorvatské korpusy WordSim353 a RG65 pro základní vyhodnocení slovních podobností. Porovnávali jsme vytvořené datové sady se dvěma populárními modely pro slovní reprezentaci založenými na nástroji Word2Vec a fastText. Modely byly natrénovány na textovém korpusu o velikosti 1.37 miliardy slov a testovány na novém robustním korpusu slovních analogií v chorvatském jazyce. Výsledky ukazují, že modely jsou schopny vytvořit vektory se smysluplným zastoupením slov. Tento výzkum ukázal, že volné slovní pořadí a vyšší morfologická složitost chorvatského jazyka ovlivňují kvalitu výsledných slovních vektorů.

Description

Subject(s)

korpus, chorvatština, slovní analogie, word2vec, fastText, slovní vektory, text

Citation

TOMICZEK, P. Duffing Equation with Nonlinearities Between Eigenvalues. In: Nonlinear Analysis and Boundary Value Problems. Cham: Springer Proceedings in Mathematics & Statistics, 2019. s. 199-209. ISBN 978-3-030-26986-9, ISSN 2194-1009.
OPEN License Selector