LSTM-based Speech Segmentation for TTS Synthesis

Hanzlíček, Zdeněk

LSTM-based Speech Segmentation for TTS Synthesis

Date issued

2019

Authors

Hanzlíček, Zdeněk

Vít, Jakub

Tihelka, Daniel

Publisher

Springer

Abstract

Tento článek popisuje experimenty se segmentací řeči pro účely TTS syntézy . Použili jsme obousměrnou LSTM neuronovou síť pro klasifikaci telefonů v rámečku a další obousměrnou LSTM síť pro predikci délky jednotlivých telefonů. Navrhovaná procedura segmentace kombinuje oba výstupy a najde optimální zarovnání řeč-foném pomocí dynamického programovacího přístupu. Zavedli jsme dvě modifikace pro zvýšení robustnosti klasifikace fonémů. Experimenty byly provedeny na 2 profesionálních a 2 amatérských hlasy. Bylo provedeno srovnání s referenční segmentací založenou na HMM s dalšími manuálními korekcemi. Preferenční poslechové testy ukázaly, že referenční a experimentální segmentace jsou rovnocenné, pokud jsou použity v systému TTS pro výběr jednotek.

Subject(s)

Segmentace řeči, syntéza řeči, LSTM neuronové sítě

Citation

HANZLÍČEK, Z.., VÍT, J.., TIHELKA, D.. LSTM-based Speech Segmentation for TTS Synthesis. In: Text, Speech, and Dialogue 22nd International Conference, TSD 2019, Ljubljana,Slovenia, September 11-13, 2019, Proceedings. Cham: Springer, 2019. s. 361-372. ISBN 978-3-030-27946-2 , ISSN 0302-9743.

Item identifier

https://doi.org/2-s2.0-85072850106
http://hdl.handle.net/11025/36611
https://doi.org/10.1007/978-3-030-27947-9_31

Collections

OBD
Conference Papers (KKY)

Show full item record

LSTM-based Speech Segmentation for TTS Synthesis

Date issued

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Subject(s)

Citation

Item identifier

Collections