Automatická klasifikace dokumentů s podobným obsahem

dc.contributor.advisorKrál, Pavel
dc.contributor.authorHrala, Michal
dc.contributor.refereePluskal, Jan
dc.date.accepted2012-06-19
dc.date.accessioned2013-06-19T06:31:03Z
dc.date.available2011-08-31cs
dc.date.available2013-06-19T06:31:03Z
dc.date.issued2012
dc.date.submitted2012-05-17
dc.description.abstractHlavním cílem práce je prozkoumat metody pro více třídní klasifikaci dokumentů a navrhnout programové řešení pro Českou tiskovou kancelář (ČTK). Více třídní klasifikace je úkol, při kterém jsou dokumenty klasifikovány do více kategorií. Na základě literatury byly vybrány tři klasifikátory, které jsou úspěšně používány v této oblasti: Naivní Bayesův klasifikátor, Support Vector Machine (SVM) a klasifikátor Maximum Entropy. Práce dále zkoumá možnost použití slovních druhů (POS-tagging) pro filtrování slov a lemmatizace pro zlepšení úspěšnosti klasifikace. Práce dále srovnává pět metod pro výběr příznaků: Dokumentová frekvence, Information Gain (IG), Chí-kvadrát test a metodu GSS. Všechny metody jsou vyhodnoceny na českém korpusu novinových článků dodaných ČTK. Na základě výsledků klasifikace je navrženo optimální nastavení klasifikátoru. Pro implementaci klasifikačních metod je použit nástroj MinorThird. Pro lemmatizaci a POS-tagging byl použit nástroj MateTool.cs
dc.description.abstract-translatedThe main goal of this work is to study methods for a multi-label document classification and to propose a user friendly software solution for Czech News Agency (ČTK). Multi-label classification is a task, where document is classified in to more than one class. Based on the literature, we have chosen three classifiers that are successfully used in the document classification field: Naive Bayes (NB), Support Vectors Machine (SVM) and Maximum Entropy classifier. We also study the possibility to use Part of Speech (POS) tagging for document word filtration and lemmatization to improve classification accuracy. For the feature selection, five methods are compared: Document Frequency (DF), Information Gain (IG), Mutual Information (MI), Chi-square and GSS methods. All methods are evaluated on the Czech corpus of ČTK newspapers articles. An optimal classifier setting is proposed based on these results. The proposed software solution uses the MinorThird classification tool package as an implementation of the classification methods. We used the Mate tool for lemmatization and POS tagging.en
dc.description.departmentKatedra informatiky a výpočetní technikycs
dc.description.resultObhájenocs
dc.format68 s. (100 000 znaků)cs
dc.format.mimetypeapplication/pdf
dc.identifier46193
dc.identifier.urihttp://hdl.handle.net/11025/3054
dc.language.isocscs
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezení.cs
dc.rights.accessopenAccessen
dc.subjectpříznakové metodycs
dc.subjectlemmatizacecs
dc.subjectmaximální entropiecs
dc.subjectvíce třídní klasifikacecs
dc.subjectnaivní Bayesův klasifikátorcs
dc.subjectPOS taggingcs
dc.subjectmetoda podpůrných vektorůcs
dc.subjectklasifikace textucs
dc.subject.translatedfeature selectionen
dc.subject.translatedlemmatizationen
dc.subject.translatedmaximum entropyen
dc.subject.translatedmulti-label document classificationen
dc.subject.translatednaive Bayes classifieren
dc.subject.translatedPOS taggingen
dc.subject.translatedsupport vector machineen
dc.subject.translatedtext classificationen
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-levelNavazujícícs
dc.thesis.degree-nameIng.cs
dc.thesis.degree-programInženýrská informatikacs
dc.titleAutomatická klasifikace dokumentů s podobným obsahemcs
dc.title.alternativeAutomatic Classification of the Documents with the Similar Contenten
dc.typediplomová prácecs
local.relation.IShttps://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=46193

Files

Original bundle
Showing 1 - 4 out of 4 results
No Thumbnail Available
Name:
diplomova prace.pdf
Size:
2.49 MB
Format:
Adobe Portable Document Format
Description:
Plný text práce
No Thumbnail Available
Name:
A10N0044Pposudek-ved.pdf
Size:
408.3 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího práce
No Thumbnail Available
Name:
A10N0044Pposudek-op.pdf
Size:
422.48 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta práce
No Thumbnail Available
Name:
A10N0044Pprubeh.pdf
Size:
209.66 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby práce

Collections