Lipreading with LipsID

Date issued

2020

Journal Title

Journal ISSN

Volume Title

Publisher

Springer

Abstract

Tato práce prezentuje nový přístup k adaptaci současných systémů pro rozpoznávání vizuální řeči. Adaptace je založena na příznacích LipsID. Tyto příznaky reprezentují zpracovaný region okolí rtů. Příznaky jsou extrahovány pomocí klasifikační neuronové sítě předtrénované na specifickém datasetu pro konkrétní systém rozpoznávání vizuální řeči. Trénovací proces pro LipsID zahrnuje ArcFace ztrátovou funkci k lepšímu oddělení příznaků pro jednotlivé řečníky z datasetu. Neuronová síť využívá konvoluční vrstvy k extrakci příznaků ze vstupní sekvence obrázků s řečníkem a je navržena k tomu, aby přijímala stejný typ vstupu jako system rozpoznávání vizuální řeči. Paralelní zpracování vstupní sekvence sítí LipsID a systémem pro rozpoznávání vizuální řeči je následováno kombinací obou setů příznaků a finální klasifikací pomocí CTC algoritmu. Tato práce prezentuje výsledky experimentů provedených na systému LipNet pomocí jeho reimplementace a porovnání výsledků s i bez LipsID příznaků. Výsledky ukazují slibnou cestu pro budoucí použití v dalších systémech pro rozpoznávání vizuální řeči. Trénování a testování je implementováno pomocí Tensorflow/Keras.

Description

Subject(s)

Automatické odezírání ze rtů, Počítačové vidění, Vizuální rozpoznávání řeči, Hluboké učení

Citation

HLAVÁČ, M., GRUBER, I., ŽELEZNÝ, M., KARPOV, A. Lipreading with LipsID. In: 22nd International Conference, SPECOM 2020, St. Petersburg, Russia, October 7–9, 2020, Proceedings. Cham: Springer, 2020. s. 176-183. ISBN 978-3-030-60275-8, ISSN 0302-9743.
OPEN License Selector