Inkrementální shlukování zpravodajských textů
Date issued
2018
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Západočeská univerzita v Plzni
Abstract
Cílem práce bylo prozkoumat možnosti shlukovacích metod založených na statistických modelech, zejména metodu založenou na Distance Dependent Chinese Restaurant Process (ddCRP), a navrhnout shlukovací systém, který bude schopný udržovat tematické shluky zpravodajských textů, které budou postupně přicházet z crawleru. Metody LDA, LSA a doc2vec byly použity k reprezentaci dokumentu jako číselný vektor fixní délky. Výsledné shluky odhalené proof-of-concept implementací takového systému byly vyhodnoceny zejména pomocí purity, F-measure a V-measure. Dále byla představena evaluační metrika NV-measure vycházející z V-measure, které penalizuje nadměrné či naopak nedostatečné množství shluků. Nejlepších výsledků bylo dosaženo pomocí doc2vec a ddCRP.
Description
Subject(s)
inkrementální shlukování, shlukovací metody založené na statistických modelech, nv-measure, gensim, zpracování přirozeného jazyka, strojové učení, distance dependent chinese restaurant process, doc2vec