Automatic Information Extraction from Scanned Documents
Date issued
2020
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Springer
Abstract
Tento článek se zabývá úkolem extrakce informací ze strukturovaného dokumentu skenovaného běžným kancelářským skenerem. Zkoumá přístupy zpracování naskenovaných papírových dokumentů a extrakci hledaných informací, jako jsou jména, adresy, data a další číselné hodnoty. Představujeme návrh systému rozděleného do čtyř po sobě jdoucích modulů: předzpracování, optické rozpoznávání znaků, extrakce informací pomocí databáze a extrakce informací bez databáze. V modulu předzpracování jsou představeny dvě základní techniky - zlepšení kvality obrazu a odklonění obrazu. Řešení optického rozpoznávání znaků a přístupy k extrakci informací jsou porovnávány pomocí výkonu celého systému. Nejlepší výkon extrakce informací s databází byl získán algoritmem Locality-sensitive Hashing.
Description
Subject(s)
Extrakce informací, Zpracování obrazu, Zpracování textu, OCR, Skener, Odklonění, Databáze
Citation
BUREŠ, L., NEDUCHAL, P., MÜLLER, L. Automatic Information Extraction from Scanned Documents. In: Speech and Computer, 22nd International Conference, SPECOM 2020, St. Peterburg, Russia, October 7-9,2020, Proceedings. Cham: Springer, 2020. s. 87-96. ISBN 978-3-030-60275-8, ISSN 0302-9743.