Distribuční sémantika v jazykovém modelování

Brychcín, Tomáš

Distribuční sémantika v jazykovém modelování

Files

main.pdf (1.75 MB)

oponent-posudky-odp-brychcin.pdf (2.24 MB)

obhajoba-protokol-odp-brychcin.pdf (910.1 KB)

Date issued

2015

Authors

Brychcín, Tomáš

Publisher

Západočeská univerzita v Plzni

Abstract

Jazykové modely jsou důležitou součástí mnoha úloh ve zpracování přirozeného jazyka a n-gramy jsou pravděpodobně nejlepší způsob jak je vytvořit. Vylepšování n-gramových jazykových modelů bylo věnováno značné úsilí. Použitím externí informace (morfologie, syntaxe, apod.) v těchto modelech může dojít k výraznému vylepšení. Tyto modely však mohou být vylepšeny i bez externí informace a efektivnější vyhlazování je reprezentativní příklad takového vylepšení. Pokud pochopíme skryté vzory v neoznačkovaných korpusech, můžeme zvýšit kvalitu jazykového modelování pouze s informací, která je již v těchto korpusech přítomna. Tato práce se zabývá třemi různými směry odkrývání latentní informace. Globální sémantika je modelována pomocí Latentní Dirichletovy alokace a zahrnuje globální relace do jazykových modelů. Slovní třídy, získané pomocí sémantických prostorů, obohacují tyto jazykové modely o lokální sémantiku. Nakonec je použit náš vlastní stemovací algoritmus, založený na trénování bez učitele, který ještě navyšuje výkonnost jazykových modelů u flektivních jazyků. Náš výzkum ukazuje, že tyto tři zdroje informací se obohacují navzájem a že jejich kombinace vede ke dramatickému vylepšení jazykových modelů. Všechny zkoumané modely jsou trénované bez učitele. Ukazujeme účinnost našich modelů na několika jazycích různých typů, což prokazuje nezávislost na konkrétním jazyce.

Subject(s)

jazykový model, distribuční sémantika, flektivní jazyky

Item identifier

http://hdl.handle.net/11025/20648

Collections

Dissertations (KIV)

Show full item record

Distribuční sémantika v jazykovém modelování

Files

Date issued

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Subject(s)

Citation

Item identifier

Collections