Dnes od 13:00 do 13:30 bude probíhat údržba systému. Uložte si prosím svou práci. | Today, from 1:00 PM to 1:30 PM, system maintenance will take place. Please save your work.
 

Automatická klasifikace dokumentů s podobným obsahem

Date issued

2012

Journal Title

Journal ISSN

Volume Title

Publisher

Západočeská univerzita v Plzni

Abstract

Hlavním cílem práce je prozkoumat metody pro více třídní klasifikaci dokumentů a navrhnout programové řešení pro Českou tiskovou kancelář (ČTK). Více třídní klasifikace je úkol, při kterém jsou dokumenty klasifikovány do více kategorií. Na základě literatury byly vybrány tři klasifikátory, které jsou úspěšně používány v této oblasti: Naivní Bayesův klasifikátor, Support Vector Machine (SVM) a klasifikátor Maximum Entropy. Práce dále zkoumá možnost použití slovních druhů (POS-tagging) pro filtrování slov a lemmatizace pro zlepšení úspěšnosti klasifikace. Práce dále srovnává pět metod pro výběr příznaků: Dokumentová frekvence, Information Gain (IG), Chí-kvadrát test a metodu GSS. Všechny metody jsou vyhodnoceny na českém korpusu novinových článků dodaných ČTK. Na základě výsledků klasifikace je navrženo optimální nastavení klasifikátoru. Pro implementaci klasifikačních metod je použit nástroj MinorThird. Pro lemmatizaci a POS-tagging byl použit nástroj MateTool.

Description

Subject(s)

příznakové metody, lemmatizace, maximální entropie, více třídní klasifikace, naivní Bayesův klasifikátor, POS tagging, metoda podpůrných vektorů, klasifikace textu

Citation

Collections