Tuning of Acoustic Modeling and Adaptation Technique for a Real Speech Recognition Task
Date issued
2019
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Nejdříve jsme vytvořili telefonní akustické modely pro češtinu za pomoci různých Kaldi receptů. Měli jsme 500-hodinový český telefonní korpus podobný korpusu Switchboard. Zvolili jsme model neuronové sítě TDNN, variantu "d", s i-vektorovou adaptací, protože na testovacích datech fungoval nejlépe. Architektura sítě TDNN s nesymetrickým okénkem také splňovala omezení rozpoznávání v reálném čase. Nicméně, model nefungoval na skutečných datech z call centra. Problém byl v metodě získávání i-vektorů. Trénovací data jsou rozděleny do krátkých promluv. V Kaldi receptu jsou vytvořeni pseudořečníci ze 2 promluv a i-vektory jsou získány pro tyto pseudořečníky. Promluvy z call centra jsou ale několikanásobně delší, v řádu minut. TDNN model byl natrénován z i-vektorů, které nesouhlasily z testovacími. Navrhujeme dva způsoby normalizace statistik používaných k výpočtu i-vektorů. I-vektory pro testovací data s těmito normalizacemi jsou kompatibilní s i-vektory z trénovacích dat. V článku se také zabýváme několika dalšími způsoby zlepšování přesnosti modelu na datech, které nesedí s trénovacími, a otestovali jsme také LSTM modely.
Description
Subject(s)
neuronové sítě, akustický model, automatické rozpoznání řeči, adaptace, i-vektory
Citation
VANĚK, J., MICHÁLEK, J., PSUTKA, J. Tuning of Acoustic Modeling and Adaptation Technique for a Real Speech Recognition Task. In: Statistical Language and Speech Processing, 7th International Conference, SLSP 2019, Ljubljana, Slovenia, October 14–16, 2019, Proceedings. Cham: Springer, 2019. s. 235-245. ISBN 978-3-030-31371-5 , ISSN 0302-9743.