Asking Questions Framework for Oral History Archives

dc.contributor.authorŠvec, Jan
dc.contributor.authorBulín, Martin
dc.contributor.authorFrémund, Adam
dc.contributor.authorPolák, Filip
dc.date.accessioned2025-06-20T08:44:31Z
dc.date.available2025-06-20T08:44:31Z
dc.date.issued2024
dc.date.updated2025-06-20T08:44:31Z
dc.description.abstractThe importance of oral history archives in preserving and understanding past experiences is counterbalanced by the challenges encountered in accessing and searching through them, primarily due to their extensive size and the diverse demographics of the speakers. This paper presents an approach combining ASR technology and Transformer-based neural networks into the Asking questions framework. Its primary function is to generate questions accompanied by concise answers that relate to the topics discussed in each interview segment. Additionally, we introduce a semantic continuity model that filters the generated questions, ensuring that only the most relevant ones are retained. This enables a real-time semantic search through thousands of hours of recordings, with the crucial benefit that the speakers' original words remain unaltered and still semantically align with the query. While the method is exemplified using a specific publicly available archive, its applicability extends universally to datasets of a similar nature.en
dc.description.abstractVýznam archivů orální historie pro zachování a pochopení minulých zkušeností je vyvažován výzvami spojenými s přístupem k těmto archivům a jejich prohledáváním, zejména kvůli jejich rozsáhlému objemu a rozmanité demografii mluvčích. Tento článek představuje přístup, který kombinuje technologii rozpoznávání řeči (ASR) a neuronové sítě založené na Transformeru do rámce kladení otázek. Hlavním cílem je generovat otázky doprovázené stručnými odpověďmi, které se vztahují k tématům diskutovaným v jednotlivých segmentech rozhovorů. Dále představujeme model sémantické kontinuity, který filtruje generované otázky a zajišťuje, aby byly zachovány pouze ty nejrelevantnější. Tím se umožňuje sémantické vyhledávání v reálném čase skrze tisíce hodin nahrávek, s klíčovou výhodou, že původní slova mluvčích zůstávají nezměněná a stále sémanticky odpovídají dotazu. Metoda je demonstrována na konkrétním veřejně dostupném archivu, avšak její využitelnost je univerzálně aplikovatelná i na podobné datové sady.cz
dc.format14
dc.identifier.document-number001211833300011
dc.identifier.doi10.1007/978-3-031-56063-7_11
dc.identifier.isbn978-3-031-56062-0
dc.identifier.issn0302-9743
dc.identifier.obd43941366
dc.identifier.orcidŠvec, Jan 0000-0001-8362-5927
dc.identifier.orcidBulín, Martin 0000-0003-0276-3143
dc.identifier.orcidFrémund, Adam 0000-0001-8780-6629
dc.identifier.orcidPolák, Filip 0009-0003-3969-3772
dc.identifier.urihttp://hdl.handle.net/11025/60861
dc.language.isoen
dc.project.IDGA22-27800S
dc.publisherSpringer
dc.relation.ispartofseries46th European Conference on Information Retrieval, ECIR 2024
dc.subjectoral archivesen
dc.subjectspoken language understandingen
dc.subjectsemantic searchen
dc.subjectarchivy orální historiecz
dc.subjectporozumění mluvené řečicz
dc.subjectsémantické vyhledávánícz
dc.titleAsking Questions Framework for Oral History Archivesen
dc.titleAsking questions framework pro archivy orální historiecz
dc.typeStať ve sborníku (D)
dc.typeSTAŤ VE SBORNÍKU
dc.type.statusPublished Version
local.files.count1*
local.files.size2660308*
local.has.filesyes*
local.identifier.eid2-s2.0-85189295309

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
978-3-031-56063-7_11.pdf
Size:
2.54 MB
Format:
Adobe Portable Document Format
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: