Vícejazyčná sémantická podobnost textů

dc.contributor.advisorBrychcín Tomáš, Ing. Ph.D.
dc.contributor.authorTušl, Michal
dc.contributor.refereePražák Ondřej, Ing.
dc.date.accepted2019-6-18
dc.date.accessioned2020-07-17T13:41:24Z
dc.date.available2018-9-10
dc.date.available2020-07-17T13:41:24Z
dc.date.issued2019
dc.date.submitted2019-5-15
dc.description.abstractTato práce se zabývá metodami strojového učení bez učitele pro měření sémantické podobnosti textů napříč různými jazyky. Pro monolinguální reprezentaci textu bylo natrénováno několik modelů na korpusu z~Wikipedie. Pro vytvoření jazykově nezávislé reprezentace významu jsou monolinguální sémantické prostory transformovány do společného prostoru pomocí lineární transformace. Práce zkoumá lineární transformace za pomocí metody nejmenších čtverců, kanonické korelační analýzy a ortogonální transformace. Kromě standardní transformace na slovech práce představuje dva nové přístupy, a to transformaci na větách a transformaci Paragraph2Vec modelu. Experimenty jsou provedeny na vícejazyčných datasetech SemEval-2017 a GoranGlavas a je měřena Pearsonova a Spearmanova korelace oproti člověku. Zkoumané metody dosahují slibných výsledků na těchto datasetech.cs
dc.description.abstract-translatedThis master thesis is focused on unsupervised machine learning methods for cross-lingual semantic textual similarity. For monolingual representation, multiple models were trained on the Wikipedia corpus. For languageindependent representation of meaning, monolingual semantic spaces are transformed into a shared space by the linear transformation. We study several linear transformations including Least Square Transformation, Canonical Correlation Analysis and Orthogonal Transformation methods. Including standard word transformation, the thesis also introduces two new approaches, transformation on sentences and transformation of Paragraph2Vec models. Experiments were examined on cross-lingual datasets SemEval-2017 and GoranGlavas. We measure Pearson and Spearman correlation between our methods and human judgements. Presented methods show very promising results.en
dc.description.resultObhájenocs
dc.format58 s.cs
dc.format.mimetypeapplication/pdf
dc.identifier79575
dc.identifier.urihttp://hdl.handle.net/11025/37428
dc.language.isocscs
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezení.cs
dc.rights.accessopenAccessen
dc.subjectzpracování přirozeného jazykacs
dc.subjectvícejazyčná sémantická podobnost textůcs
dc.subjectsémantikacs
dc.subjecttransformace metodou nejmenších čtvercůcs
dc.subjectkanonická korelační analýzacs
dc.subjectortogonální transformacecs
dc.subjectglovecs
dc.subjectword2veccs
dc.subjectfasttextcs
dc.subjectparagraph2veccs
dc.subjectskip-thoughtscs
dc.subjectsemevalcs
dc.subjectgoranglavascs
dc.subject.translatednlpen
dc.subject.translatedcross-lingual semantic textual similarityen
dc.subject.translatedstsen
dc.subject.translatedsemanticen
dc.subject.translatedleast square transformationen
dc.subject.translatedcanonical correlation analysisen
dc.subject.translatedorthogonal transformationen
dc.subject.translatedgloveen
dc.subject.translatedword2vecen
dc.subject.translatedfasttexten
dc.subject.translatedparagraph2vecen
dc.subject.translatedskip-thoughtsen
dc.subject.translatedsemevalen
dc.subject.translatedgoranglavasen
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-levelNavazujícícs
dc.thesis.degree-nameIng.cs
dc.thesis.degree-programInženýrská informatikacs
dc.titleVícejazyčná sémantická podobnost textůcs
dc.title.alternativeCross-lingual semantic textual similarityen
dc.typediplomová prácecs
local.relation.IShttps://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=79575

Files

Original bundle
Showing 1 - 4 out of 4 results
No Thumbnail Available
Name:
DP_Tusl_A17N0092P.pdf
Size:
744.12 KB
Format:
Adobe Portable Document Format
Description:
Plný text práce
No Thumbnail Available
Name:
A17N0092Phodnoceni-ved.PDF
Size:
466.58 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího práce
No Thumbnail Available
Name:
A17N0092Pposudek-op.PDF
Size:
553.16 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta práce
No Thumbnail Available
Name:
A17N0092Pobhajoba.PDF
Size:
279.37 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby práce

Collections

OPEN License Selector