Automatická klasifikace vícejazyčných dokumentů

Date issued

2016

Journal Title

Journal ISSN

Volume Title

Publisher

Západočeská univerzita v Plzni

Abstract

Automatická klasifikace dokumentů je úloha, ve které dokumenty zařazujeme do určitých kategorií dle jejich obsahu (např. politika, sport, ...). V práci je řešena především více třídní klasifikace, ve které může dokument patřit do více kategorií. Cílem práce bylo prozkoumat možnosti vícejazyčné klasifikace dokumentů. V rámci řešení je porovnávána metoda LDA s klasifikací po strojovém překladu do cílového jazyka. Použity jsou klasifikační metody maximální entropie a metoda podpůrných vektorů. K překladu textu jsou použity statistické systémy pro strojový překlad Moses a Google translate. Pro testování byly vybrány 3 rozdílné kolekce. První kolekce byla dodána od České tiskové kanceláře, zatímco zbylé dvě byly nalezeny na internetu. Provedené experimenty ukázaly, že varianta se strojovým překladem poskytuje solidní výsledky. Zatímco klasifikování za použití metody LDA dosahovalo nižších výsledků a nelze ho pro úlohu doporučit. Dále bylo ukázáno jak kvalita překladu ovlivňuje výslednou klasifikaci.

Description

Subject(s)

klasifikace, více třídní, svm, maximální entropie, naivní bayes, lda, klasifikace vícejazyčných dokumentů, strojový překlad, smt

Citation

Collections

OPEN License Selector