Neural Sign Language Synthesis: Words Are Our Glosses
Abstract
Tento článek se zabývá syntézou znakového jazyka typu text-video. Místo přímé produkce videa jsme se zaměřili na výrobu skeletových modelů. Naším hlavním cílem v tomto příspěvku bylo navrhnout plně end-to-end systém automatické syntézy znakového jazyka vyškolený pouze na dostupných volných datech (denní televizní vysílání). Proto jsme vyloučili jakoukoli manuální anotaci videa. Náš navržený přístup se navíc nespoléhá na žádnou segmentaci videa. Byl zkoumán navrhovaný dopředný transformátor a rekurentní transformátor. Abychom zlepšili výkon našeho transformátoru sekvence na sekvenci, byla v našem tréninkovém procesu použita měkká nemonotónní pozornost. Výhoda funkcí na úrovni znaků byla porovnána s funkcemi na úrovni slov. Naše experimenty jsme zaměřili na soubor dat o předpovědi počasí v českém znakovém jazyce.
Description
Subject(s)
Znakový jazyk, syntéza, neuronové sítě
Citation
ZELINKA, J., KANIS, J. Neural Sign Language Synthesis: Words Are Our Glosses. In: 2020 IEEE Winter Conference on Applications of Computer Vision (WACV). USA: IEEE, 2020. s. 3384-3392. ISBN 978-1-72816-553-0, ISSN 2472-6737.