LSTM-based Speech Segmentation for TTS Synthesis

Date issued

2019

Journal Title

Journal ISSN

Volume Title

Publisher

Springer

Abstract

Tento článek popisuje experimenty se segmentací řeči pro účely TTS syntézy . Použili jsme obousměrnou LSTM neuronovou síť pro klasifikaci telefonů v rámečku a další obousměrnou LSTM síť pro predikci délky jednotlivých telefonů. Navrhovaná procedura segmentace kombinuje oba výstupy a najde optimální zarovnání řeč-foném pomocí dynamického programovacího přístupu. Zavedli jsme dvě modifikace pro zvýšení robustnosti klasifikace fonémů. Experimenty byly provedeny na 2 profesionálních a 2 amatérských hlasy. Bylo provedeno srovnání s referenční segmentací založenou na HMM s dalšími manuálními korekcemi. Preferenční poslechové testy ukázaly, že referenční a experimentální segmentace jsou rovnocenné, pokud jsou použity v systému TTS pro výběr jednotek.

Description

Subject(s)

Segmentace řeči, syntéza řeči, LSTM neuronové sítě

Citation

HANZLÍČEK, Z.., VÍT, J.., TIHELKA, D.. LSTM-based Speech Segmentation for TTS Synthesis. In: Text, Speech, and Dialogue 22nd International Conference, TSD 2019, Ljubljana,Slovenia, September 11-13, 2019, Proceedings. Cham: Springer, 2019. s. 361-372. ISBN 978-3-030-27946-2 , ISSN 0302-9743.