Automatická klasifikace dokumentů s podobným obsahem

Hrala, Michal

Automatická klasifikace dokumentů s podobným obsahem

Files

diplomova prace.pdf (2.49 MB)

A10N0044Pposudek-ved.pdf (408.3 KB)

A10N0044Pposudek-op.pdf (422.48 KB)

A10N0044Pprubeh.pdf (209.66 KB)

Date issued

2012

Authors

Hrala, Michal

Publisher

Západočeská univerzita v Plzni

Abstract

Hlavním cílem práce je prozkoumat metody pro více třídní klasifikaci dokumentů a navrhnout programové řešení pro Českou tiskovou kancelář (ČTK). Více třídní klasifikace je úkol, při kterém jsou dokumenty klasifikovány do více kategorií. Na základě literatury byly vybrány tři klasifikátory, které jsou úspěšně používány v této oblasti: Naivní Bayesův klasifikátor, Support Vector Machine (SVM) a klasifikátor Maximum Entropy. Práce dále zkoumá možnost použití slovních druhů (POS-tagging) pro filtrování slov a lemmatizace pro zlepšení úspěšnosti klasifikace. Práce dále srovnává pět metod pro výběr příznaků: Dokumentová frekvence, Information Gain (IG), Chí-kvadrát test a metodu GSS. Všechny metody jsou vyhodnoceny na českém korpusu novinových článků dodaných ČTK. Na základě výsledků klasifikace je navrženo optimální nastavení klasifikátoru. Pro implementaci klasifikačních metod je použit nástroj MinorThird. Pro lemmatizaci a POS-tagging byl použit nástroj MateTool.

Subject(s)

příznakové metody, lemmatizace, maximální entropie, více třídní klasifikace, naivní Bayesův klasifikátor, POS tagging, metoda podpůrných vektorů, klasifikace textu

Item identifier

http://hdl.handle.net/11025/3054

Collections

Theses (KIV)

Show full item record

Automatická klasifikace dokumentů s podobným obsahem

Files

Date issued

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Subject(s)

Citation

Item identifier

Collections