Automatická identifikace revizí textových dokumentů

Date issued

2017

Journal Title

Journal ISSN

Volume Title

Publisher

Západočeská univerzita v Plzni

Abstract

Cílem této práce je navrhnout, vytvořit a otestovat algoritmus pro identifi- kaci revizí v množině textových dokumentů. V první části práce jsou zmapo- vány současné přístupy ve vyhledávání dokumentů a popsány stávající algo- ritmy pro identifikaci podobných dokumentů. Druhá část se zabývá návrhem a implementací algoritmu zaměřeného na detekci revizí, jehož úspěšnost je ověřena na vytvořené kolekci testovacích dokumentů. Výsledky získané z provedených experimentů jsou porovnány s výsledky vybraných stávajících algoritmů.

Description

Subject(s)

revize, duplikáty, apache lucene, vyhledávání informací, vektorový model, kullback-leiblerova divergence, rozpoznávání pojmenovaných entit

Citation

OPEN License Selector