Vícejazyčná sémantická podobnost textů
| dc.contributor.advisor | Brychcín Tomáš, Ing. Ph.D. | |
| dc.contributor.author | Tušl, Michal | |
| dc.contributor.referee | Pražák Ondřej, Ing. | |
| dc.date.accepted | 2019-6-18 | |
| dc.date.accessioned | 2020-07-17T13:41:24Z | |
| dc.date.available | 2018-9-10 | |
| dc.date.available | 2020-07-17T13:41:24Z | |
| dc.date.issued | 2019 | |
| dc.date.submitted | 2019-5-15 | |
| dc.description.abstract | Tato práce se zabývá metodami strojového učení bez učitele pro měření sémantické podobnosti textů napříč různými jazyky. Pro monolinguální reprezentaci textu bylo natrénováno několik modelů na korpusu z~Wikipedie. Pro vytvoření jazykově nezávislé reprezentace významu jsou monolinguální sémantické prostory transformovány do společného prostoru pomocí lineární transformace. Práce zkoumá lineární transformace za pomocí metody nejmenších čtverců, kanonické korelační analýzy a ortogonální transformace. Kromě standardní transformace na slovech práce představuje dva nové přístupy, a to transformaci na větách a transformaci Paragraph2Vec modelu. Experimenty jsou provedeny na vícejazyčných datasetech SemEval-2017 a GoranGlavas a je měřena Pearsonova a Spearmanova korelace oproti člověku. Zkoumané metody dosahují slibných výsledků na těchto datasetech. | cs |
| dc.description.abstract-translated | This master thesis is focused on unsupervised machine learning methods for cross-lingual semantic textual similarity. For monolingual representation, multiple models were trained on the Wikipedia corpus. For languageindependent representation of meaning, monolingual semantic spaces are transformed into a shared space by the linear transformation. We study several linear transformations including Least Square Transformation, Canonical Correlation Analysis and Orthogonal Transformation methods. Including standard word transformation, the thesis also introduces two new approaches, transformation on sentences and transformation of Paragraph2Vec models. Experiments were examined on cross-lingual datasets SemEval-2017 and GoranGlavas. We measure Pearson and Spearman correlation between our methods and human judgements. Presented methods show very promising results. | en |
| dc.description.result | Obhájeno | cs |
| dc.format | 58 s. | cs |
| dc.format.mimetype | application/pdf | |
| dc.identifier | 79575 | |
| dc.identifier.uri | http://hdl.handle.net/11025/37428 | |
| dc.language.iso | cs | cs |
| dc.publisher | Západočeská univerzita v Plzni | cs |
| dc.rights | Plný text práce je přístupný bez omezení. | cs |
| dc.rights.access | openAccess | en |
| dc.subject | zpracování přirozeného jazyka | cs |
| dc.subject | vícejazyčná sémantická podobnost textů | cs |
| dc.subject | sémantika | cs |
| dc.subject | transformace metodou nejmenších čtverců | cs |
| dc.subject | kanonická korelační analýza | cs |
| dc.subject | ortogonální transformace | cs |
| dc.subject | glove | cs |
| dc.subject | word2vec | cs |
| dc.subject | fasttext | cs |
| dc.subject | paragraph2vec | cs |
| dc.subject | skip-thoughts | cs |
| dc.subject | semeval | cs |
| dc.subject | goranglavas | cs |
| dc.subject.translated | nlp | en |
| dc.subject.translated | cross-lingual semantic textual similarity | en |
| dc.subject.translated | sts | en |
| dc.subject.translated | semantic | en |
| dc.subject.translated | least square transformation | en |
| dc.subject.translated | canonical correlation analysis | en |
| dc.subject.translated | orthogonal transformation | en |
| dc.subject.translated | glove | en |
| dc.subject.translated | word2vec | en |
| dc.subject.translated | fasttext | en |
| dc.subject.translated | paragraph2vec | en |
| dc.subject.translated | skip-thoughts | en |
| dc.subject.translated | semeval | en |
| dc.subject.translated | goranglavas | en |
| dc.thesis.degree-grantor | Západočeská univerzita v Plzni. Fakulta aplikovaných věd | cs |
| dc.thesis.degree-level | Navazující | cs |
| dc.thesis.degree-name | Ing. | cs |
| dc.thesis.degree-program | Inženýrská informatika | cs |
| dc.title | Vícejazyčná sémantická podobnost textů | cs |
| dc.title.alternative | Cross-lingual semantic textual similarity | en |
| dc.type | diplomová práce | cs |
| local.relation.IS | https://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=79575 |
Files
Original bundle
1 - 4 out of 4 results
No Thumbnail Available
- Name:
- DP_Tusl_A17N0092P.pdf
- Size:
- 744.12 KB
- Format:
- Adobe Portable Document Format
- Description:
- Plný text práce
No Thumbnail Available
- Name:
- A17N0092Phodnoceni-ved.PDF
- Size:
- 466.58 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek vedoucího práce
No Thumbnail Available
- Name:
- A17N0092Pposudek-op.PDF
- Size:
- 553.16 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek oponenta práce
No Thumbnail Available
- Name:
- A17N0092Pobhajoba.PDF
- Size:
- 279.37 KB
- Format:
- Adobe Portable Document Format
- Description:
- Průběh obhajoby práce