Propojení témat zpravodajských článků mezi jazyky
| dc.contributor.advisor | Steinberger Josef, Doc. Ing. Ph.D. | |
| dc.contributor.author | Kopal, Petr | |
| dc.contributor.referee | Přibáň Pavel, Ing. | |
| dc.date.accepted | 2019-9-10 | |
| dc.date.accessioned | 2020-08-24T11:42:38Z | |
| dc.date.available | 2018-9-10 | |
| dc.date.available | 2020-08-24T11:42:38Z | |
| dc.date.issued | 2019 | |
| dc.date.submitted | 2019-6-26 | |
| dc.description.abstract | Cílem této diplomové práce bylo prozkoumat možnosti metod pro výpočet podobnosti textů napříč jazyky. Následně na základě těchto poznatků navrhnout systém, který bude schopen propojit tematicky podobné zpravodajské články v různých jazycích. Pro získání příznakových vektorů byly kromě společných entit a Eurovoc deskriptorů použity sémantické distribuční modely natrénované na srovnatelném korpusu Wikipedie. Konkrétně šlo o metody CL-ESA, K-means a CL-LSA. Výsledné shluky byly vyhodnoceny evaluačními metrikami (zejména pak F-mírou a purity) a zdokumentovány v samostatné kapitole. Nejlepších výsledků bylo dosaženo metodou CL-LSA v kombinaci se společnými entitami. | cs |
| dc.description.abstract-translated | The goal of this master thesis was to research cross-lingual document similarity methods, which were used then to design a system for linking of similar news topics across languages. Except of the common entities and Eurovoc descriptors, word embeddings models (CL-ESA, K-means, CL-LSA) were used as the main source of feature vectors. All these word embeddings models were trained on the Wikipedia comparable corpus. The clustering results were evaluated using various metrics (notably F-measure and purity) and documented in a separate chapter. The best results were achieved using the CL-LSA method in combination with common entities features. | en |
| dc.description.result | Obhájeno | cs |
| dc.format | 70 s. | cs |
| dc.format.mimetype | application/pdf | |
| dc.identifier | 79562 | |
| dc.identifier.uri | http://hdl.handle.net/11025/39194 | |
| dc.language.iso | cs | cs |
| dc.publisher | Západočeská univerzita v Plzni | cs |
| dc.rights | Plný text práce je přístupný bez omezení. | cs |
| dc.rights.access | openAccess | en |
| dc.subject | vícejazyčná podobnost dokumentů | cs |
| dc.subject | propojování článků | cs |
| dc.subject | cl-lsa | cs |
| dc.subject | cl-esa | cs |
| dc.subject | k-means | cs |
| dc.subject | entity | cs |
| dc.subject | eurovoc | cs |
| dc.subject | word embeddings | cs |
| dc.subject | distribuční sémantické modely | cs |
| dc.subject | wikipedia korpus | cs |
| dc.subject.translated | cross-lingual document similarity | en |
| dc.subject.translated | news linking | en |
| dc.subject.translated | cl-lsa | en |
| dc.subject.translated | cl-esa | en |
| dc.subject.translated | k-means | en |
| dc.subject.translated | entity | en |
| dc.subject.translated | eurovoc | en |
| dc.subject.translated | word embeddings | en |
| dc.subject.translated | wikipedia corpus | en |
| dc.thesis.degree-grantor | Západočeská univerzita v Plzni. Fakulta aplikovaných věd | cs |
| dc.thesis.degree-level | Navazující | cs |
| dc.thesis.degree-name | Ing. | cs |
| dc.thesis.degree-program | Inženýrská informatika | cs |
| dc.title | Propojení témat zpravodajských článků mezi jazyky | cs |
| dc.title.alternative | Linking similar news across languages | en |
| dc.type | diplomová práce | cs |
| local.relation.IS | https://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=79562 |
Files
Original bundle
1 - 4 out of 4 results
No Thumbnail Available
- Name:
- Diplomka.pdf
- Size:
- 1.07 MB
- Format:
- Adobe Portable Document Format
- Description:
- Plný text práce
No Thumbnail Available
- Name:
- A16N0044Pposudek-op.pdf
- Size:
- 218.46 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek oponenta práce
No Thumbnail Available
- Name:
- A16N0044Phodnoceni-ved.PDF
- Size:
- 343.01 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek vedoucího práce
No Thumbnail Available
- Name:
- A16N0044Pobhajoba.PDF
- Size:
- 269.95 KB
- Format:
- Adobe Portable Document Format
- Description:
- Průběh obhajoby práce