Neural Sign Language Synthesis: Words Are Our Glosses

dc.contributor.authorZelinka, Jan
dc.contributor.authorKanis, Jakub
dc.date.accessioned2021-03-01T11:00:26Z
dc.date.available2021-03-01T11:00:26Z
dc.date.issued2020
dc.description.abstractTento článek se zabývá syntézou znakového jazyka typu text-video. Místo přímé produkce videa jsme se zaměřili na výrobu skeletových modelů. Naším hlavním cílem v tomto příspěvku bylo navrhnout plně end-to-end systém automatické syntézy znakového jazyka vyškolený pouze na dostupných volných datech (denní televizní vysílání). Proto jsme vyloučili jakoukoli manuální anotaci videa. Náš navržený přístup se navíc nespoléhá na žádnou segmentaci videa. Byl zkoumán navrhovaný dopředný transformátor a rekurentní transformátor. Abychom zlepšili výkon našeho transformátoru sekvence na sekvenci, byla v našem tréninkovém procesu použita měkká nemonotónní pozornost. Výhoda funkcí na úrovni znaků byla porovnána s funkcemi na úrovni slov. Naše experimenty jsme zaměřili na soubor dat o předpovědi počasí v českém znakovém jazyce.cs
dc.description.abstract-translatedThis paper deals with a text-to-video sign language synthesis. Instead of direct video production, we focused on skeletal models production. Our main goal in this paper was to design a fully end-to-end automatic sign language synthesis system trained only on available free data (daily TV broadcasting). Thus, we excluded any manual video annotation. Furthermore, our designed approach even do not rely on any video segmentation. A proposed feed-forward transformer and recurrent transformer were investigated. To improve the performance of our sequence-to-sequence transformer, soft non-monotonic attention was employed in our training process. A benefit of character-level features was compared with word-level features. We focused our experiments on a weather forecasting dataset in the Czech Sign Language.en
dc.format9 s.cs
dc.format.mimetypeapplication/pdf
dc.identifier.citationZELINKA, J., KANIS, J. Neural Sign Language Synthesis: Words Are Our Glosses. In: 2020 IEEE Winter Conference on Applications of Computer Vision (WACV). USA: IEEE, 2020. s. 3384-3392. ISBN 978-1-72816-553-0, ISSN 2472-6737.cs
dc.identifier.document-number578444803049
dc.identifier.doi10.1109/WACV45572.2020.9093516
dc.identifier.isbn978-1-72816-553-0
dc.identifier.issn2472-6737
dc.identifier.obd43930825
dc.identifier.uri2-s2.0-85085480480
dc.identifier.urihttp://hdl.handle.net/11025/42772
dc.language.isoenen
dc.project.IDEF15_003/0000466/Umělá inteligence a uvažovánícs
dc.publisherIEEEen
dc.relation.ispartofseries2020 IEEE Winter Conference on Applications of Computer Vision (WACV)en
dc.rightsPlný text není přístupný.cs
dc.rights© IEEEen
dc.rights.accessclosedAccessen
dc.subjectZnakový jazykcs
dc.subjectsyntézacs
dc.subjectneuronové sítěcs
dc.subject.translatedSign Languageen
dc.subject.translatedSynthesisen
dc.subject.translatedNeural Networksen
dc.titleNeural Sign Language Synthesis: Words Are Our Glossesen
dc.title.alternativeSyntéza znakového jazyka pomocí neuronových sítí: Slova jsou naše glosycs
dc.typekonferenční příspěvekcs
dc.typeconferenceObjecten
dc.type.statusPeer-revieweden
dc.type.versionpublishedVersionen

Files