Metody statistické sémantické analýzy

dc.contributor.advisorKonopík Miloslav, Ing. Ph.D.
dc.contributor.authorSteinberger, David
dc.contributor.refereeZelinka Jan, Ing. PhD.
dc.date.accepted2016-9-6
dc.date.accessioned2017-02-21T08:28:12Z
dc.date.available2015-9-1
dc.date.available2017-02-21T08:28:12Z
dc.date.issued2016
dc.date.submitted2016-6-23
dc.description.abstractTato práce se zabývá statistickou sémantickou podobností a zaměřuje se na nástroj word2vec. Byla navržena rozšíření s ohledem na český jazyk založená na stemmování a n-gramech znaků. Výsledky této práce podávají na českém jazyce o 12% lepší výsledky než původní model. Na anglickém jazyce bylo dosaženo zlepšení o 3%. Nový model poskytuje dobré výsledky i při velmi malém množství trénovacích dat. V rámci práce byly vytvořeny dva trénovací korpusy a jedna obsáhlá testovací datová sada založená na podobnosti dvojic slov. Sada byla získána z 9 různých zdrojů dvojic slov, obsahuje slova v kontextech, odlišuje podobnost a souvislost slov. Výsledná mezi anotátorská shoda dosáhla korelaci 0,81, která je plně srovnatelná s anglickými datovými sadami.cs
dc.description.abstract-translatedThe thesis deals with statistic semantic similarity focused on the word2vec tool. It introduces extensions for the Czech language based upon stemming and character n-grams. The achieved results improve the original tool by 12% on the Czech language and by 3% on English. The new model is providing good results even on small training data. In this thesis, we introduce two new training corpora and one large dataset based on similarity of word pairs. The dataset is compiled from 9 differenet sources, it contains words in their contexts, it distinguishes between the similarity and relatedness of the word pairs. The final inter-rater agreement reaches 0.81 correlation, which is fully comparable with english datasets.en
dc.description.resultObhájenocs
dc.formatii s., 60 s., XI s.cs
dc.format.mimetypeapplication/pdf
dc.identifier68335
dc.identifier.urihttp://hdl.handle.net/11025/23695
dc.language.isocscs
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezení.cs
dc.rights.accessopenAccessen
dc.subjectword2veccs
dc.subjectdistribuční hypotézacs
dc.subjectzpracování přirozeného jazykacs
dc.subjectsémantická podobnostcs
dc.subjectumělé neuronové sítěcs
dc.subjectsémantické vektory slovcs
dc.subject.translatedword2vecen
dc.subject.translatedvector space modelen
dc.subject.translateddistributional hypothesisen
dc.subject.translatednlpen
dc.subject.translatedsemantic similarityen
dc.subject.translatedartificial neural networksen
dc.subject.translatedword embeddingsen
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-levelNavazujícícs
dc.thesis.degree-nameIng.cs
dc.thesis.degree-programInženýrská informatikacs
dc.titleMetody statistické sémantické analýzycs
dc.title.alternativeStatistical Semantic Analysis Methodsen
dc.typediplomová prácecs
local.relation.IShttps://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=68335

Files

Original bundle
Showing 1 - 4 out of 4 results
No Thumbnail Available
Name:
D.Steinberger.Metody.statisticke.semanticke.analyzy.pdf
Size:
1.99 MB
Format:
Adobe Portable Document Format
Description:
Plný text práce
No Thumbnail Available
Name:
A13N0095Pposudek-op.PDF
Size:
593.82 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta práce
No Thumbnail Available
Name:
A13N0095Phodnoceni-ved.PDF
Size:
372.23 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího práce
No Thumbnail Available
Name:
A13N0095Pobhajoba.PDF
Size:
203.05 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby práce

Collections