Training of speaker-clustered discriminative acoustic models for use in real-time recognizers
Date issued
2010
Journal Title
Journal ISSN
Volume Title
Publisher
Institute of photonics and electronics AS CR
Abstract
Je dobře známo, že akustické modely, založené na informaci o pohlaví řečníka, jsou více akusticky homogenní, a proto dosahují lepších výsledků rozpoznávání než jeden univerzální akustický model v případě, že je pohlaví řečníka úspěšně detekováno, nebo předem známo. Řečníci ovšem nemusí být rozděleni jen do dvou skupin. V tomto článku je popsán algoritmus, který je schopen vytvořit větší množství shluků řečníků. Dále se tento článek zabývá problémem vhodného použití těchto modelů v systémech rozpoznávání řeči pracujících v reálném čase, kde informace od detektoru správného shluku řečníků je často zpožděná nebo nesprávná. Dále jsou ještě v článku diskutovány různé přístupy k začlenění diskriminativních metod při trénování těchto akustických modelů.
Description
Subject(s)
model shlukování řečníků, akustické modelování, automatické rozpoznávání řeči
Citation
VANĚK, Jan; PSUTKA, Josef V.; ZELINKA, Jan; TRMAL, Jan. Training of speaker-clustered discriminative acoustic models for use in real-time recognizers. In: Speech processing. Prague: Institute of photonics and electronics AS CR , 2010, p. 152-158. ISBN 978-80-86269-21-4.