Increasing the Accuracy of the ASR System by Prolonging Voiceless Phonemes in the Speech of Patients Using the Electrolarynx
Date issued
2020
Journal Title
Journal ISSN
Volume Title
Publisher
Springer
Abstract
Pacienti, kteří podstoupili totální laryngektomii a používají k produkci hlasu elektrolarynx, trpí špatnou srozumitelností. V mnoha případech to může vést k obavám z mluvení s cizími lidmi, a to i po telefonu. Systémy automatického rozpoznávání řeči (ASR) by mohly pacientům pomoci tento problém překonat mnoha způsoby. Bohužel ani nejmodernější systémy ASR nemohou poskytnout výsledky srovnatelné s výsledky konvenčních řečníků. Problém je způsoben hlavně podobností mezi znělými a neznělými páry fonémů. V mnoha případech může problém vyřešit jazykový model, ale pouze v případě, že je kontext slova dostatečně dlouhý. Proto je pro zvýšení přesnosti rozpoznávání nezbytná úprava akustických dat a / nebo akustického modelu. V tomto článku navrhujeme prodloužení neznělých fonémů, abychom zlepšili přesnost rozpoznávání a obohatili systém ASR o model, který toto prodloužení zohledňuje. Myšlenka prodloužení je ověřena na souboru experimentů ASR s uměle prodlouženými neznělými fonémy. K obohacení systému ASR je navržen model DNN pro rescoring mřížky na základě trvání fonému. Nový systém je srovnáván se standardním ASR. Je také ověřeno, že systém ASR vytvořený pomocí prodloužených syntetických dat dokáže úspěšně rozpoznat protažená slova vyslovená skutečným mluvčím.
Description
Subject(s)
Automatické rozpoznávání řeči, Totální laryngektomie, Délka fonémů, Elektrolarynx
Citation
STANISLAV, P., PSUTKA, J., PSUTKA, J. Increasing the Accuracy of the ASR System by Prolonging Voiceless Phonemes in the Speech of Patients Using the Electrolarynx. In: 22nd International Conference, SPECOM 2020, St. Petersburg, Russia, October 7–9, 2020, Proceedings. Cham: Springer, 2020. s. 562-571. ISBN 978-3-030-60275-8, ISSN 0302-9743.