Automatická klasifikace textových dokumentů

dc.contributor.advisorKrál, Pavel
dc.contributor.authorČerná, Veronika
dc.date.accepted2012-06-07
dc.date.accessioned2013-06-19T06:42:08Z
dc.date.available2012-02-03cs
dc.date.available2013-06-19T06:42:08Z
dc.date.issued2012
dc.date.submitted2012-05-11
dc.description.abstractTato práce se zabývá automatickou klasifikací textových dokumentů, jejímž cílem je přiřadit dokumentům kategorii z nějaké předdefinované množiny kategorií. Pro experimenty byly vybrány tři známé klasifikační techniky: naivní Bayesův klasifikátor, support vector machines a maximální entropie. K předzpracování dat byly použity lemmatizátor a POS-tagger a na základě různých kritérií pro výběr příznaků pak byly vytvořeny 4 sady dokumentů. Všechny experimenty byly prováděny na českém korpusu nástrojem MinorThird.cs
dc.description.abstract-translatedThis work deals with automatic text document classification. Text classification is a process of labelling documents with thematic categories from a predefined set of categories. Three known classification techniques were chosen for experiments in this work: naive Bayes, support vector machines and maximum entropy. A lemmatizer and a POS-tagger were used for the text pre-processing. Four sets of documents were created based on the different feature selection criteria. All experiments were performed on the Czech corpus using the MinorThird toolkit.en
dc.description.departmentKatedra informatiky a výpočetní technikycs
dc.description.resultObhájenocs
dc.format47 s.cs
dc.format.mimetypeapplication/pdf
dc.identifier49895
dc.identifier.urihttp://hdl.handle.net/11025/5497
dc.language.isocscs
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezení.cs
dc.rights.accessopenAccessen
dc.subjectklasifikace dokumentůcs
dc.subjectnaivní Bayesův klasifikátorcs
dc.subjectsupport vector machinescs
dc.subjectmaximální entropiecs
dc.subject.translateddocument classificationen
dc.subject.translatednaive Bayesen
dc.subject.translatedsupport vector machinesen
dc.subject.translatedmaximum entropyen
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-levelBakalářskýcs
dc.thesis.degree-nameBc.cs
dc.thesis.degree-programInženýrská informatikacs
dc.titleAutomatická klasifikace textových dokumentůcs
dc.title.alternativeAutomatic Text Document Classificationen
dc.typebakalářská prácecs
local.relation.IShttps://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=49895

Files

Original bundle
Showing 1 - 3 out of 3 results
No Thumbnail Available
Name:
Automaticka klasifikace textovych dokumentu.pdf
Size:
462.87 KB
Format:
Adobe Portable Document Format
Description:
Plný text práce
No Thumbnail Available
Name:
A10B0834Pposudek.pdf
Size:
438.15 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího práce
No Thumbnail Available
Name:
A10B0834Pprubeh.pdf
Size:
53.01 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby práce
OPEN License Selector