Audio-visual speech asynchrony modeling in a talking head
Date issued
2009
Journal Title
Journal ISSN
Volume Title
Publisher
ISCA
Abstract
V tomto článku je navržen systém audiovizuální syntézy řeči obsahující modelování asynchronie mezi zvukovou a vizuální modalitou řeči. Studie reálných nahrávek obsažených v řečových databázích nám poskytují požadované údaje k pochopení problému modalit asynchronie, která je částečně způsobena koartikulací. Byl vypracován soubor kontextově závislých pravidel časování a doporučení zajišťující synchronizaci zvukové a vizuální řeči tak, že animace mluvící hlavy je více přirozená. Kognitivní ohodnocení systému mluvící hlavy, který je nastaven pro Ruštinu a implementující původní model asynchronie, ukazuje vysokou srozumitelnost a přirozenost syntetizované audiovizuální řeči.
Description
Subject(s)
automatické rozpoznávání řeči, syntéza řeči, multimodální vjem řeči, kognitivní studie
Citation
KARPOV, Alexey; TSIRULNIK, Liliya; KRŇOUL, Zdeněk; RONZHIN, Andrey; LOBANOV, Boris; ŽELEZNÝ, Miloš. Audio-visual speech asynchrony modeling in a talking head. In: Proceedings of ICSPL 2009: 10th Annual Conference of the International Speech Communication Association 2009, 6-10 September 2009, Brighton, UK. [Baixas]: ISCA, 2009, p. 2911-2914. ISSN 1990-9772.