Experimenty s Apache Mahout

dc.contributor.advisorKonopík, Miloslav
dc.contributor.authorHain, Lukáš
dc.contributor.refereeKonkol, Michal
dc.date.accepted2015-06-15
dc.date.accessioned2016-03-15T08:38:23Z
dc.date.available2014-09-01cs
dc.date.available2016-03-15T08:38:23Z
dc.date.issued2015
dc.date.submitted2015-05-14
dc.description.abstractTato práce je zaměřena na knihovnou Apache Mahout. Úkolem je vytvoření návodu a ověřit její použitelnost na úlohách z oblasti zpracování přirozeného jazyka (NLP). V textu je znázorněno řešení tří problému z oblasti NLP: klasifikace emailu z podpory, extrakce diskuzních příspěvků z webových stránek a shlukování sémantických vektoru. Všechny tyto úlohy jsou doprovázeny podrobným popisem, který zahrnuje načítání dat, trénování, testování a použití natrénovaného modelu. Velice slibných výsledku bylo dosaženo v první a třetí úloze. Klasifikace emailu dosahuje úspešnosti kolem 91%. Shlukování do 25 000 shluků, ze 400 000 vektorů trvalo 43 hodin na běžném notebooku.cs
dc.description.abstract-translatedThis thesis focuses on the Apache Mahout toolkit. The goal is to create a tutorial and verify its usability on some tasks from natural language processing (NLP) field. The text shows a solution to three NLP problems: classification of e-mails in a support forum, extracting discussion feeds from web pages and clustering semantic vectors. All these examples are accompanied with rich explanations that cover data loading, training, testing and using the trained models. Very promising results were achieved for the first and third task. Classification of emails achieved approximately 91% accuracy. Clustering into 25 000 clusters based upon 400 000 vectors finished in 43 hours on a common laptop.en
dc.description.resultObhájenocs
dc.format76 s.cs
dc.format.mimetypeapplication/pdf
dc.identifier63093
dc.identifier.urihttp://hdl.handle.net/11025/17880
dc.language.isocscs
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezení.cs
dc.rights.accessopenAccessen
dc.subjectMahoutcs
dc.subjectstrojové učenícs
dc.subjectdoporučenícs
dc.subjectklasifikacecs
dc.subjectshlukovánícs
dc.subjectzpracování přirozeného jazykacs
dc.subjectNLPcs
dc.subject.translatedMahouten
dc.subject.translatedmachine learningen
dc.subject.translatedrecommendationen
dc.subject.translatedclassificationen
dc.subject.translatedclusteringen
dc.subject.translatednatural language processingen
dc.subject.translatedNLPen
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-levelNavazujícícs
dc.thesis.degree-nameIng.cs
dc.thesis.degree-programInženýrská informatikacs
dc.titleExperimenty s Apache Mahoutcs
dc.title.alternativeExperiments with Apache Mahouten
dc.typediplomová prácecs
local.relation.IShttps://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=63093

Files

Original bundle
Showing 1 - 4 out of 4 results
No Thumbnail Available
Name:
dp.pdf
Size:
1.17 MB
Format:
Adobe Portable Document Format
Description:
Plný text práce
No Thumbnail Available
Name:
vedouci-A13N0103Phodnoceni-ved.PDF
Size:
374.51 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího práce
No Thumbnail Available
Name:
oponent-A13N0103Pposudek-oponent.PDF
Size:
390.82 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta práce
No Thumbnail Available
Name:
obhajoba-A13N0103Pobhajoba.PDF
Size:
206.76 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby práce

Collections