Metody statistické sémantické analýzy

Steinberger, David

Metody statistické sémantické analýzy

Files

D.Steinberger.Metody.statisticke.semanticke.analyzy.pdf (1.99 MB)

A13N0095Pposudek-op.PDF (593.82 KB)

A13N0095Phodnoceni-ved.PDF (372.23 KB)

A13N0095Pobhajoba.PDF (203.05 KB)

Date issued

2016

Authors

Steinberger, David

Publisher

Západočeská univerzita v Plzni

Abstract

Tato práce se zabývá statistickou sémantickou podobností a zaměřuje se na nástroj word2vec. Byla navržena rozšíření s ohledem na český jazyk založená na stemmování a n-gramech znaků. Výsledky této práce podávají na českém jazyce o 12% lepší výsledky než původní model. Na anglickém jazyce bylo dosaženo zlepšení o 3%. Nový model poskytuje dobré výsledky i při velmi malém množství trénovacích dat. V rámci práce byly vytvořeny dva trénovací korpusy a jedna obsáhlá testovací datová sada založená na podobnosti dvojic slov. Sada byla získána z 9 různých zdrojů dvojic slov, obsahuje slova v kontextech, odlišuje podobnost a souvislost slov. Výsledná mezi anotátorská shoda dosáhla korelaci 0,81, která je plně srovnatelná s anglickými datovými sadami.

Subject(s)

word2vec, distribuční hypotéza, zpracování přirozeného jazyka, sémantická podobnost, umělé neuronové sítě, sémantické vektory slov

Item identifier

http://hdl.handle.net/11025/23695

Collections

Theses (KIV)

Show full item record

Metody statistické sémantické analýzy

Files

Date issued

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Subject(s)

Citation

Item identifier

Collections