Building an efficient OCR system for historical documents with little training data
Date issued
2020
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Springer
Abstract
S rychlým nárůstem počtu digitalizovaných historických dokumentů vzniká potřeba umožnit efektivní vyhledávání informací a extrakci znalostí, aby bylo možné tato data zpřístupnit. Tyto úlohy jsou závislé na optickém rozpoznání znaků (OCR), které umožní převod dokumentů do textové podoby. Článek představuje sadu metod, které umožňují provedení OCR na historických dokumentech s minimálními nároky na množství reálných, manuálně anotovaných, dat. Prezentovaný OCR systém zahrnuje analýzu rozložení stránky spolu s detekcí textových bloků a segmentací řádek textu a také samotný OCR modul. Segmentační metody jsou založeny na plně konvolučních neuronových sítích a OCR modul využívá rekurentní sítě. Je ukázáno, že jak segmentace tak i OCR jsou možné s malým množstvím anotovaných dat. Cílem experimentů bylo nalézt efektivní postup pro dosažení dobrých výsledků s použitím malého množství trénovacích dat. Výsledky ukazují, že je možné dosáhnout srovnatelných, nebo i lepších výsledků, než poskytují nejlepší současné OCR systémy.
Description
Subject(s)
CNN, FCN, historické dokumenty, LSTM, neuronová síť, OCR, Porta fontium, syntetická data
Citation
MARTÍNEK, J. LENC, L. KRÁL, P. Building an efficient OCR system for historical documents with little training data. Neural Computing and Applications, 2020, roč. 32, č. 23, s. 17209-17227. ISSN 1433-3058.