Prohledávání dokumentů podle automaticky extrahovaných vzorů
Date issued
2018
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Západočeská univerzita v Plzni
Abstract
Prohledávání dokumentů podle automaticky extrahovaných vzorů je problém z oblasti information retrieval. Lze ho také nalézt pod pojmy jako rozpoznávání nebo vyhledávání slov v ručně psyných dokumentech. V anglické literatuře je nejčastěji použit termín word spotting. Toto prohledávání je děleno podle vstupního kritéria, kterým může být obrazový vzor (dále jako QbE) nebo textový řetězec (dále jako QbS). Při prohledávání se snažíme na základě vstupního kritéria nalézt obrázky s odpovídajícím slovem. Úspěšné vyřešení by usnadnilo práci např. v situaci, kdy má historik najít v kronice, která obsahuje 1 000 stran textu, všechny zmínky o klášteře v Teplé. Cílem této práce je návrh a implementace metod, které umožní vyhledávání těchto slov. Předpokladem je předem provedená segmentace dokumentu na obrázky slov. K dosažení tohoto cíle jsou použity neuronové sítě.
Description
Subject(s)
vyhledávání informací, optické rozpoznávání znaků, neuronové sítě, historické dokumenty
Citation
RENDL, Jan ed. Studentská vědecká konference: bakalářské studijní programy, sborník rozšířených abstraktů, květen 2019, Plzeň. Plzeň: Západočeská univerzita v Plzni, 2018, s. 27-28. ISBN 978-80-261-0789-7.