Increasing the Accuracy of the ASR System by Prolonging Voiceless Phonemes in the Speech of Patients Using the Electrolarynx

Date issued

2020

Journal Title

Journal ISSN

Volume Title

Publisher

Springer

Abstract

Pacienti, kteří podstoupili totální laryngektomii a používají k produkci hlasu elektrolarynx, trpí špatnou srozumitelností. V mnoha případech to může vést k obavám z mluvení s cizími lidmi, a to i po telefonu. Systémy automatického rozpoznávání řeči (ASR) by mohly pacientům pomoci tento problém překonat mnoha způsoby. Bohužel ani nejmodernější systémy ASR nemohou poskytnout výsledky srovnatelné s výsledky konvenčních řečníků. Problém je způsoben hlavně podobností mezi znělými a neznělými páry fonémů. V mnoha případech může problém vyřešit jazykový model, ale pouze v případě, že je kontext slova dostatečně dlouhý. Proto je pro zvýšení přesnosti rozpoznávání nezbytná úprava akustických dat a / nebo akustického modelu. V tomto článku navrhujeme prodloužení neznělých fonémů, abychom zlepšili přesnost rozpoznávání a obohatili systém ASR o model, který toto prodloužení zohledňuje. Myšlenka prodloužení je ověřena na souboru experimentů ASR s uměle prodlouženými neznělými fonémy. K obohacení systému ASR je navržen model DNN pro rescoring mřížky na základě trvání fonému. Nový systém je srovnáván se standardním ASR. Je také ověřeno, že systém ASR vytvořený pomocí prodloužených syntetických dat dokáže úspěšně rozpoznat protažená slova vyslovená skutečným mluvčím.

Description

Subject(s)

Automatické rozpoznávání řeči, Totální laryngektomie, Délka fonémů, Elektrolarynx

Citation

STANISLAV, P., PSUTKA, J., PSUTKA, J. Increasing the Accuracy of the ASR System by Prolonging Voiceless Phonemes in the Speech of Patients Using the Electrolarynx. In: 22nd International Conference, SPECOM 2020, St. Petersburg, Russia, October 7–9, 2020, Proceedings. Cham: Springer, 2020. s. 562-571. ISBN 978-3-030-60275-8, ISSN 0302-9743.