The System for Efficient Indexing and Search in the Large Archives of Scanned Historical Documents

dc.contributor.authorBulín, Martin
dc.contributor.authorŠvec, Jan
dc.contributor.authorIrcing, Pavel
dc.date.accessioned2025-06-20T08:56:43Z
dc.date.available2025-06-20T08:56:43Z
dc.date.issued2023
dc.date.updated2025-06-20T08:56:43Z
dc.description.abstractThe paper introduces software capable of indexing and searching large archives of scanned historical documents. The system capabilities are demonstrated on the collection containing documents from the archives of the post-Soviet security services. The backend of the system was designed with a focus on flexibility (it is actually already being used for other related tasks) and scalability to larger volumes of data. The graphical user interface design has been consulted with historians interested in using the archived documents and was developed in several iterations, gradually including the changes induced both by the user’s requests and by our improving knowledge about the nature of the processed data.en
dc.description.abstractPředstavujeme software schopný indexovat a vyhledávat velké archivy naskenovaných historických dokumentů. Schopnosti systému jsou demonstrovány na sbírce obsahující dokumenty z archivů postsovětských bezpečnostních služeb. Backend systému byl navržen s důrazem na flexibilitu (v současnosti je již používán i pro jiné související úkoly) a škálovatelnost pro zpracování většího objemu dat. Design grafického uživatelského rozhraní byl konzultován s historiky, kteří mají zájem o využití archivovaných dokumentů, a byl vyvíjen postupně v několika iteracích, zahrnující změny, které byly způsobeny jak požadavky uživatelů, tak naším stále se zlepšujícím poznáním o povaze zpracovávaných dat.cz
dc.format5
dc.identifier.document-number000995495200015
dc.identifier.doi10.1007/978-3-031-28241-6_15
dc.identifier.isbn978-3-031-28240-9
dc.identifier.issn0302-9743
dc.identifier.obd43940528
dc.identifier.orcidBulín, Martin 0000-0003-0276-3143
dc.identifier.orcidŠvec, Jan 0000-0001-8362-5927
dc.identifier.orcidIrcing, Pavel 0000-0001-6967-1687
dc.identifier.urihttp://hdl.handle.net/11025/61626
dc.language.isoen
dc.project.IDSGS-2022-017
dc.project.IDLM2023062
dc.publisherSpringer
dc.relation.ispartofseries45th European Conference on Information Retrieval (ECIR 2023)
dc.subjectindexingen
dc.subjectGUI designen
dc.subjectOCRen
dc.subjectscanned documentsen
dc.subjectindexacecz
dc.subjectwebové uživatelské rozhranícz
dc.subjectOCRcz
dc.subjectvyhledávání ve skenovaných dokumentechcz
dc.titleThe System for Efficient Indexing and Search in the Large Archives of Scanned Historical Documentsen
dc.titleSystém pro efektivní indexaci a vyhledávání v rozsáhlých archivech skenovaných historických dokumentůcz
dc.typeStať ve sborníku (D)
dc.typeSTAŤ VE SBORNÍKU
dc.type.statusPublished Version
local.files.count1*
local.files.size785181*
local.has.filesyes*
local.identifier.eid2-s2.0-85151066220

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
978-3-031-28241-6_15.pdf
Size:
766.78 KB
Format:
Adobe Portable Document Format
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: