Distribuční sémantika v jazykovém modelování

Date issued

2015

Journal Title

Journal ISSN

Volume Title

Publisher

Západočeská univerzita v Plzni

Abstract

Jazykové modely jsou důležitou součástí mnoha úloh ve zpracování přirozeného jazyka a n-gramy jsou pravděpodobně nejlepší způsob jak je vytvořit. Vylepšování n-gramových jazykových modelů bylo věnováno značné úsilí. Použitím externí informace (morfologie, syntaxe, apod.) v těchto modelech může dojít k výraznému vylepšení. Tyto modely však mohou být vylepšeny i bez externí informace a efektivnější vyhlazování je reprezentativní příklad takového vylepšení. Pokud pochopíme skryté vzory v neoznačkovaných korpusech, můžeme zvýšit kvalitu jazykového modelování pouze s informací, která je již v těchto korpusech přítomna. Tato práce se zabývá třemi různými směry odkrývání latentní informace. Globální sémantika je modelována pomocí Latentní Dirichletovy alokace a zahrnuje globální relace do jazykových modelů. Slovní třídy, získané pomocí sémantických prostorů, obohacují tyto jazykové modely o lokální sémantiku. Nakonec je použit náš vlastní stemovací algoritmus, založený na trénování bez učitele, který ještě navyšuje výkonnost jazykových modelů u flektivních jazyků. Náš výzkum ukazuje, že tyto tři zdroje informací se obohacují navzájem a že jejich kombinace vede ke dramatickému vylepšení jazykových modelů. Všechny zkoumané modely jsou trénované bez učitele. Ukazujeme účinnost našich modelů na několika jazycích různých typů, což prokazuje nezávislost na konkrétním jazyce.

Description

Subject(s)

jazykový model, distribuční sémantika, flektivní jazyky

Citation

OPEN License Selector