LSTM-based Speech Segmentation for TTS Synthesis
Date issued
2019
Journal Title
Journal ISSN
Volume Title
Publisher
Springer
Abstract
Tento článek popisuje experimenty se segmentací řeči pro účely TTS syntézy . Použili jsme obousměrnou LSTM neuronovou síť pro klasifikaci telefonů v rámečku a další obousměrnou LSTM síť pro predikci délky jednotlivých telefonů. Navrhovaná procedura segmentace kombinuje oba výstupy a najde optimální zarovnání řeč-foném pomocí dynamického programovacího přístupu. Zavedli jsme dvě modifikace pro zvýšení robustnosti klasifikace fonémů. Experimenty byly provedeny na 2 profesionálních a 2 amatérských hlasy. Bylo provedeno srovnání s referenční segmentací založenou na HMM s dalšími manuálními korekcemi. Preferenční poslechové testy ukázaly, že referenční a experimentální segmentace jsou rovnocenné, pokud jsou použity v systému TTS pro výběr jednotek.
Description
Subject(s)
Segmentace řeči, syntéza řeči, LSTM neuronové sítě
Citation
HANZLÍČEK, Z.., VÍT, J.., TIHELKA, D.. LSTM-based Speech Segmentation for TTS Synthesis. In: Text, Speech, and Dialogue 22nd International Conference, TSD 2019, Ljubljana,Slovenia, September 11-13, 2019, Proceedings. Cham: Springer, 2019. s. 361-372. ISBN 978-3-030-27946-2 , ISSN 0302-9743.