Propojení témat zpravodajských článků mezi jazyky

dc.contributor.advisorSteinberger Josef, Doc. Ing. Ph.D.
dc.contributor.authorKopal, Petr
dc.contributor.refereePřibáň Pavel, Ing.
dc.date.accepted2019-9-10
dc.date.accessioned2020-08-24T11:42:38Z
dc.date.available2018-9-10
dc.date.available2020-08-24T11:42:38Z
dc.date.issued2019
dc.date.submitted2019-6-26
dc.description.abstractCílem této diplomové práce bylo prozkoumat možnosti metod pro výpočet podobnosti textů napříč jazyky. Následně na základě těchto poznatků navrhnout systém, který bude schopen propojit tematicky podobné zpravodajské články v různých jazycích. Pro získání příznakových vektorů byly kromě společných entit a Eurovoc deskriptorů použity sémantické distribuční modely natrénované na srovnatelném korpusu Wikipedie. Konkrétně šlo o metody CL-ESA, K-means a CL-LSA. Výsledné shluky byly vyhodnoceny evaluačními metrikami (zejména pak F-mírou a purity) a zdokumentovány v samostatné kapitole. Nejlepších výsledků bylo dosaženo metodou CL-LSA v kombinaci se společnými entitami.cs
dc.description.abstract-translatedThe goal of this master thesis was to research cross-lingual document similarity methods, which were used then to design a system for linking of similar news topics across languages. Except of the common entities and Eurovoc descriptors, word embeddings models (CL-ESA, K-means, CL-LSA) were used as the main source of feature vectors. All these word embeddings models were trained on the Wikipedia comparable corpus. The clustering results were evaluated using various metrics (notably F-measure and purity) and documented in a separate chapter. The best results were achieved using the CL-LSA method in combination with common entities features.en
dc.description.resultObhájenocs
dc.format70 s.cs
dc.format.mimetypeapplication/pdf
dc.identifier79562
dc.identifier.urihttp://hdl.handle.net/11025/39194
dc.language.isocscs
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezení.cs
dc.rights.accessopenAccessen
dc.subjectvícejazyčná podobnost dokumentůcs
dc.subjectpropojování článkůcs
dc.subjectcl-lsacs
dc.subjectcl-esacs
dc.subjectk-meanscs
dc.subjectentitycs
dc.subjecteurovoccs
dc.subjectword embeddingscs
dc.subjectdistribuční sémantické modelycs
dc.subjectwikipedia korpuscs
dc.subject.translatedcross-lingual document similarityen
dc.subject.translatednews linkingen
dc.subject.translatedcl-lsaen
dc.subject.translatedcl-esaen
dc.subject.translatedk-meansen
dc.subject.translatedentityen
dc.subject.translatedeurovocen
dc.subject.translatedword embeddingsen
dc.subject.translatedwikipedia corpusen
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-levelNavazujícícs
dc.thesis.degree-nameIng.cs
dc.thesis.degree-programInženýrská informatikacs
dc.titlePropojení témat zpravodajských článků mezi jazykycs
dc.title.alternativeLinking similar news across languagesen
dc.typediplomová prácecs
local.relation.IShttps://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=79562

Files

Original bundle
Showing 1 - 4 out of 4 results
No Thumbnail Available
Name:
Diplomka.pdf
Size:
1.07 MB
Format:
Adobe Portable Document Format
Description:
Plný text práce
No Thumbnail Available
Name:
A16N0044Pposudek-op.pdf
Size:
218.46 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta práce
No Thumbnail Available
Name:
A16N0044Phodnoceni-ved.PDF
Size:
343.01 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího práce
No Thumbnail Available
Name:
A16N0044Pobhajoba.PDF
Size:
269.95 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby práce

Collections