Inkrementální shlukování zpravodajských textů

dc.contributor.advisorSteinberger Josef, Doc. Ing. Ph.D.
dc.contributor.authorVáňa, Martin
dc.contributor.refereeBrychcín Tomáš, Ing. Ph.D.
dc.date.accepted2018-6-18
dc.date.accessioned2019-03-15T10:14:26Z
dc.date.available2017-9-1
dc.date.available2019-03-15T10:14:26Z
dc.date.issued2018
dc.date.submitted2018-5-17
dc.description.abstractCílem práce bylo prozkoumat možnosti shlukovacích metod založených na statistických modelech, zejména metodu založenou na Distance Dependent Chinese Restaurant Process (ddCRP), a navrhnout shlukovací systém, který bude schopný udržovat tematické shluky zpravodajských textů, které budou postupně přicházet z crawleru. Metody LDA, LSA a doc2vec byly použity k reprezentaci dokumentu jako číselný vektor fixní délky. Výsledné shluky odhalené proof-of-concept implementací takového systému byly vyhodnoceny zejména pomocí purity, F-measure a V-measure. Dále byla představena evaluační metrika NV-measure vycházející z V-measure, které penalizuje nadměrné či naopak nedostatečné množství shluků. Nejlepších výsledků bylo dosaženo pomocí doc2vec a ddCRP.cs
dc.description.abstract-translatedThe goal was to research model-based clustering methods, notably the Distance Dependent Chinese Restaurant Process (ddCRP), and propose an incremental clustering system which would be capable of maintaining the growing number of topic clusters of news articles coming online from a crawler. LDA, LSA, and doc2vec methods were used to represent a document as a fixed-length numeric vector. Cluster assignments given by a proof-of-concept implementation of such a system were evaluated using various metrics, notably purity, F-measure and V-measure. A modification of V-measure -- NV-measure -- was introduced in order to penalize an excessive or insufficient number of clusters. The best results were achieved with doc2vec and ddCRP.en
dc.description.resultObhájenocs
dc.format68 s.cs
dc.format.mimetypeapplication/pdf
dc.identifier74798
dc.identifier.urihttp://hdl.handle.net/11025/31803
dc.language.isoenen
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezení.cs
dc.rights.accessopenAccessen
dc.subjectinkrementální shlukovánícs
dc.subjectshlukovací metody založené na statistických modelechcs
dc.subjectnv-measurecs
dc.subjectgensimcs
dc.subjectzpracování přirozeného jazykacs
dc.subjectstrojové učenícs
dc.subjectdistance dependent chinese restaurant processcs
dc.subjectdoc2veccs
dc.subject.translatedincremental clusteringen
dc.subject.translatedmodel-based clusteringen
dc.subject.translatednv-measureen
dc.subject.translatedgensimen
dc.subject.translatednatural language processingen
dc.subject.translatedmachine learningen
dc.subject.translateddistance dependent chinese restaurant processen
dc.subject.translateddoc2vecen
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-levelNavazujícícs
dc.thesis.degree-nameIng.cs
dc.thesis.degree-programInženýrská informatikacs
dc.titleInkrementální shlukování zpravodajských textůcs
dc.title.alternativeIncremental news clusteringen
dc.typediplomová prácecs
local.relation.IShttps://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=74798

Files

Original bundle
Showing 1 - 4 out of 4 results
No Thumbnail Available
Name:
thesis.pdf
Size:
2.39 MB
Format:
Adobe Portable Document Format
Description:
Plný text práce
No Thumbnail Available
Name:
A15N0083Pposudek-op.PDF
Size:
877.62 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta práce
No Thumbnail Available
Name:
A15N0083Phodnoceni-ved.PDF
Size:
379.56 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího práce
No Thumbnail Available
Name:
A15N0083Pobhajoba.PDF
Size:
208.12 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby práce

Collections