Experimenty s Apache Mahout

Abstract

Tato práce je zaměřena na knihovnou Apache Mahout. Úkolem je vytvoření návodu a ověřit její použitelnost na úlohách z oblasti zpracování přirozeného jazyka (NLP). V textu je znázorněno řešení tří problému z oblasti NLP: klasifikace emailu z podpory, extrakce diskuzních příspěvků z webových stránek a shlukování sémantických vektoru. Všechny tyto úlohy jsou doprovázeny podrobným popisem, který zahrnuje načítání dat, trénování, testování a použití natrénovaného modelu. Velice slibných výsledku bylo dosaženo v první a třetí úloze. Klasifikace emailu dosahuje úspešnosti kolem 91%. Shlukování do 25 000 shluků, ze 400 000 vektorů trvalo 43 hodin na běžném notebooku.

Description

Subject(s)

Mahout, strojové učení, doporučení, klasifikace, shlukování, zpracování přirozeného jazyka, NLP

Citation

Collections

OPEN License Selector