An Automated Pipeline for Robust Image Processing and Optical Character Recognition of Historical Documents

Abstract

V tomto článku presentujeme proces předzpracování naskenovaných historických dokumentů do elektronické textové formy, která může poté být zindexována a uložena do databáze. Povaha dokumentů představuje velkou výzvu pro standardní automatizované techniky. Nejenže se jedná o kombinaci ručně psaných dokumentů a dokumentů psaných na stroji, ale dramaticky se liší i jejich kvalita a jednotlivé skeny často obsahují více než jen jednu stránku. Navíc, jazyk jednotlivých dokumentů se střídá převážně mezi ruštinou a ukrajinštinou, nicméně se v dokumentech vyskytují i úplně jiné jazyky. Tento článek se zaměřuje na segmentaci, klasifikaci typu dokumentu, a celkové předzpracování dokumentů. Nad výstupem těchto metod je pak otestován standardní OCR software a jeho úspěšnost je vyhodnocena na velmi jednoduché baseline úloze.

Description

Subject(s)

OCR, Klasifikace dokumentů, Digitalizace dokumentů

Citation

GRUBER, I., IRCING, P., NEDUCHAL, P., HRÚZ, M., HLAVÁČ, M., ZAJÍC, Z., ŠVEC, J., BULÍN, M. An Automated Pipeline for Robust Image Processing and Optical Character Recognition of Historical Documents. In: Speech and Computer, 22nd International Conference, SPECOM 2019, St. Petersburg, Russia, October 7-9,2020, Proceedings. Cham: Springer, 2020. s. 166-175. ISBN 978-3-030-60275-8, ISSN 0302-9743.