Automatická klasifikace vícejazyčných dokumentů

dc.contributor.advisorKrál Pavel, Doc. Ing. Ph.D.
dc.contributor.authorHlom, Ladislav
dc.contributor.refereeKonopík Miloslav, Ing. Ph.D.
dc.date.accepted2016-6-13
dc.date.accessioned2017-02-21T08:27:58Z
dc.date.available2015-9-1
dc.date.available2017-02-21T08:27:58Z
dc.date.issued2016
dc.date.submitted2016-5-12
dc.description.abstractAutomatická klasifikace dokumentů je úloha, ve které dokumenty zařazujeme do určitých kategorií dle jejich obsahu (např. politika, sport, ...). V práci je řešena především více třídní klasifikace, ve které může dokument patřit do více kategorií. Cílem práce bylo prozkoumat možnosti vícejazyčné klasifikace dokumentů. V rámci řešení je porovnávána metoda LDA s klasifikací po strojovém překladu do cílového jazyka. Použity jsou klasifikační metody maximální entropie a metoda podpůrných vektorů. K překladu textu jsou použity statistické systémy pro strojový překlad Moses a Google translate. Pro testování byly vybrány 3 rozdílné kolekce. První kolekce byla dodána od České tiskové kanceláře, zatímco zbylé dvě byly nalezeny na internetu. Provedené experimenty ukázaly, že varianta se strojovým překladem poskytuje solidní výsledky. Zatímco klasifikování za použití metody LDA dosahovalo nižších výsledků a nelze ho pro úlohu doporučit. Dále bylo ukázáno jak kvalita překladu ovlivňuje výslednou klasifikaci.cs
dc.description.abstract-translatedAutomatic classification of documents is a task, where each document is classified into some categories based on its content (e.g politics, sport, etc.). The thesis is primarily focused on multi-label classification, where each document can belong to more than one category. The main aim of the thesis is a multilingual document classification. LDA method is compared with a classification after machine translation into a target language. Maximum entropy and vector machines are used as classification methods. Statistical machine translation systems Moses and Google Translate are used for the text translation. For testing three different collections were selected. The first collection was delivered from the Czech News Agency, while the other two were found on the Internet. The experiments that were done showed that the machine translation provides good-quality results. On the other hand, classification with LDA method achieved worse results and cannot be recommended for the task. Furthermore, it was shown how the quality of the translation affects the final classification.en
dc.description.resultObhájenocs
dc.format52 s.cs
dc.format.mimetypeapplication/pdf
dc.identifier66751
dc.identifier.urihttp://hdl.handle.net/11025/23665
dc.language.isocscs
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezení.cs
dc.rights.accessopenAccessen
dc.subjectklasifikacecs
dc.subjectvíce třídnícs
dc.subjectsvmcs
dc.subjectmaximální entropiecs
dc.subjectnaivní bayescs
dc.subjectldacs
dc.subjectklasifikace vícejazyčných dokumentůcs
dc.subjectstrojový překladcs
dc.subjectsmtcs
dc.subject.translatedclassificationen
dc.subject.translatedmulti-labelen
dc.subject.translatedsvmen
dc.subject.translatedmaximum entropyen
dc.subject.translatednaive bayesen
dc.subject.translatedldaen
dc.subject.translatedmultilingual document classificationen
dc.subject.translatedmachine translationen
dc.subject.translatedsmten
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-levelNavazujícícs
dc.thesis.degree-nameIng.cs
dc.thesis.degree-programInženýrská informatikacs
dc.titleAutomatická klasifikace vícejazyčných dokumentůcs
dc.title.alternativeAutomatic multilingual document classificationen
dc.typediplomová prácecs
local.relation.IShttps://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=66751

Files

Original bundle
Showing 1 - 4 out of 4 results
No Thumbnail Available
Name:
dp.pdf
Size:
679.58 KB
Format:
Adobe Portable Document Format
Description:
Plný text práce
No Thumbnail Available
Name:
A14N0126Phodnoceni-ved.PDF
Size:
476.46 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího práce
No Thumbnail Available
Name:
A14N0126Pposudek-op.PDF
Size:
748.38 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta práce
No Thumbnail Available
Name:
A14N0126Pobhajoba.PDF
Size:
206.34 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby práce

Collections

OPEN License Selector