Prohledávání dokumentů podle automaticky extrahovaných vzorů

Date issued

2018

Journal Title

Journal ISSN

Volume Title

Publisher

Západočeská univerzita v Plzni

Abstract

Prohledávání dokumentů podle automaticky extrahovaných vzorů je problém z oblasti information retrieval. Lze ho také nalézt pod pojmy jako rozpoznávání nebo vyhledávání slov v ručně psyných dokumentech. V anglické literatuře je nejčastěji použit termín word spotting. Toto prohledávání je děleno podle vstupního kritéria, kterým může být obrazový vzor (dále jako QbE) nebo textový řetězec (dále jako QbS). Při prohledávání se snažíme na základě vstupního kritéria nalézt obrázky s odpovídajícím slovem. Úspěšné vyřešení by usnadnilo práci např. v situaci, kdy má historik najít v kronice, která obsahuje 1 000 stran textu, všechny zmínky o klášteře v Teplé. Cílem této práce je návrh a implementace metod, které umožní vyhledávání těchto slov. Předpokladem je předem provedená segmentace dokumentu na obrázky slov. K dosažení tohoto cíle jsou použity neuronové sítě.

Description

Subject(s)

vyhledávání informací, optické rozpoznávání znaků, neuronové sítě, historické dokumenty

Citation

RENDL, Jan ed. Studentská vědecká konference: bakalářské studijní programy, sborník rozšířených abstraktů, květen 2019, Plzeň. Plzeň: Západočeská univerzita v Plzni, 2018, s. 27-28. ISBN 978-80-261-0789-7.