Dialogue Act Recognition Using Visual Information

dc.contributor.authorMartínek, Jiří
dc.contributor.authorKrál, Pavel
dc.contributor.authorLenc, Ladislav
dc.date.accessioned2022-02-28T11:00:25Z
dc.date.available2022-02-28T11:00:25Z
dc.date.issued2021
dc.description.abstractAutomatická správa dialogů včetně rozpoznávání dialogových aktů (DA) je obvykle zaměřena na dialogy v řečovém signálu. Některé dialogy jsou však dostupné i v psané podobě a jejich automatická analýza je také velmi důležitá. Hlavním cílem tohoto příspěvku je tedy rozpoznávání dialogu z tištěných dokumentů. Pro vizuální rozpoznávání DA navrhujeme nový hluboký model, který kombinuje dvě rekurentní neuronové sítě. Přístup je vyhodnocen na nově vytvořeném datasetu obsahujícím tištěné dialogy z anglického korpusu VERBMOBIL. Ukázali jsme, že vizuální informace nemá významný pozitivní dopad na rozpoznávání DA pomocí obrázků v dobré kvalitě, kde je výsledek OCR vynikající. Nicméně jsme prokázali, že vizuální informace mohou významně zlepšit skóre rozpoznávání DA na obrázcích nízké kvality s chybným OCR. Podle našich nejlepších znalostí se jedná o první pokus zaměřený na rozpoznání DA z vizuálních dat.cs
dc.description.abstract-translatedAutomatic dialogue management including dialogue act (DA) recognition is usually focused on dialogues in the audio signal. However, some dialogues are also available in a written form and their automatic analysis is also very important. The main goal of this paper thus consists in the dialogue act recognition from printed documents. For visual DA recognition, we propose a novel deep model that combines two recurrent neural networks. The approach is evaluated on a newly created dataset containing printed dialogues from the English VERBMOBIL corpus. We have shown that visual information does not have any positive impact on DA recognition using good quality images where the OCR result is excellent. We have also demonstrated that visual information can significantly improve the DA recognition score on low-quality images with erroneous OCR. To the best of our knowledge, this is the first attempt focused on DA recognition from visual data.en
dc.format15 s.cs
dc.format.mimetypeapplication/pdf
dc.identifier.citationMARTÍNEK, J. KRÁL, P. LENC, L. Dialogue Act Recognition Using Visual Information. In Document Analysis and Recognition - ICDAR 2021. Heidelberg: Springer, 2021. s. 793-807. ISBN: 978-3-030-86330-2 , ISSN: 0302-9743cs
dc.identifier.doi10.1007/978-3-030-86331-9_51
dc.identifier.isbn978-3-030-86330-2
dc.identifier.issn0302-9743
dc.identifier.obd43934768
dc.identifier.uri2-s2.0-85115300974
dc.identifier.urihttp://hdl.handle.net/11025/47036
dc.language.isoenen
dc.project.IDSGS-2019-018/Zpracování heterogenních dat a jejich specializované aplikacecs
dc.project.IDEF17_048/0007267/InteCom: VaV inteligentních komponent pokročilých technologií pro plzeňskou metropolitní oblastcs
dc.publisherSpringeren
dc.relation.ispartofseriesDocument Analysis and Recognition - ICDAR 2021en
dc.rightsPlný text je přístupný v rámci univerzity přihlášeným uživatelům.cs
dc.rights© Springeren
dc.rights.accessrestrictedAccessen
dc.subjectrozpoznávání dialogových aktůcs
dc.subjectmulti-modalitacs
dc.subjectOCRcs
dc.subjectRNNcs
dc.subjectvizuální informacecs
dc.subject.translateddialogue act recognitionen
dc.subject.translatedmulti-modalen
dc.subject.translatedOCRen
dc.subject.translatedRNNen
dc.subject.translatedvisual informationen
dc.titleDialogue Act Recognition Using Visual Informationen
dc.title.alternativeRozpoznávání dialogových aktů s využitím vizuální informacecs
dc.typekonferenční příspěvekcs
dc.typeConferenceObjecten
dc.type.statusPeer-revieweden
dc.type.versionpublishedVersionen

Files