HDPA: Historical Document Processing and Analysis Framework
Date issued
2021
Journal Title
Journal ISSN
Volume Title
Publisher
Springer
Abstract
V současné době je přístupnost k digitalizovaným historickým dokumentům velmi důležitá k realizaci rychlého a efektivního vyhledávání informací z takovýchto dat. Nejprve je nutné z digitalizovaného obrázku dokumentu extrahovat text pomocí metod optického rozpoznávání znaků (OCR). Některé OCR systémy jsou ale příliš komplikované pro uživatele, případně chybí některé důležité součásti a také nejsou zdarma. Tento článek popisuje komplexní a flexibilní framework pro manipulaci a analýzu historických dokumentů s hlavním zaměřením na OCR. Framework obsahuje osm modulů pro usnadnění tří hlavních úkolů: předzpracování a segmentace obrazu, tvorba dat pro trénování OCR modelů a samotný OCR modul. Tento Framework je volně k dispozici pro nekomerční účely. Framework byl otestován na reálných datech a výsledky ukázaly, že tento systém je účinný a může ušetřit lidskou práci v procesu přípravy anotovaných dat. Kromě toho jsme dosáhli state-of-the-art výsledků v OCR.
Description
Subject(s)
CNN, analýza dokumentů, Framework, historické dokumenty, LSTM, neuronové sítě, OCR
Citation
LENC, L., MARTÍNEK, J., KRÁL, P., NICOLAOU, A., CHRISTLEIN, V., HDPA: Historical Document Processing and Analysis Framework. Evolving Systems, 2021, roč. 12, č. 1, s. 177-190. ISSN 1868-6478.