Automatická identifikace revizí textových dokumentů
Date issued
2017
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Západočeská univerzita v Plzni
Abstract
Cílem této práce je navrhnout, vytvořit a otestovat algoritmus pro identifi-
kaci revizí v množině textových dokumentů. V první části práce jsou zmapo-
vány současné přístupy ve vyhledávání dokumentů a popsány stávající algo-
ritmy pro identifikaci podobných dokumentů. Druhá část se zabývá návrhem
a implementací algoritmu zaměřeného na detekci revizí, jehož úspěšnost je
ověřena na vytvořené kolekci testovacích dokumentů. Výsledky získané z
provedených experimentů jsou porovnány s výsledky vybraných stávajících
algoritmů.
Description
Subject(s)
revize, duplikáty, apache lucene, vyhledávání informací, vektorový model, kullback-leiblerova divergence, rozpoznávání pojmenovaných entit