Speakers Talking Foreign Languages in a Multi-lingual TTS System

Date issued

2021

Journal Title

Journal ISSN

Volume Title

Publisher

Springer International Publishing

Abstract

Článek popisuje experimenty s vícejazyčnými systémy syntézy řeči trénovanými společně z anglických, německých, ruských a českých dat. Experimentální systém založený na LSTM neuronových sítích a trénovatelný neuronový vokodér využívají mezinárodní fonetickou abecedu (IPA), což umožňuje přímou kombinaci různých jazyků. Článek porovnává, zda je společný model schopný spojit a zobecnit informaci obsaženou v trénovacích datech a zda je možné použít jednotlivé hlasy k syntéze jiných jazyků, včetně hlásek specifických pro jednotlivé jazyky. Srozumitelnost generované řeči byla ohodnocena s využitím SUS poslechových testů. Vícejazyčné modely byly rovněž porovnány s nezávislými jednojazyčními modely, kde chybějící cizí hlásky byly nahrazeny nejpodobnějšími hláskami přítomnými v daném jazyku. V poslechových testech byly jednoznačně preferovány vícejazyčné modely.

Description

Subject(s)

syntéza řeči, vícejazyčné systémy syntézy řeči

Citation

HANZLÍČEK, Z. VÍT, J. ŘEZÁČKOVÁ, M. Speakers Talking Foreign Languages in a Multi-lingual TTS System. In Text, Speech, and Dialogue 24th International Conference, TSD 2021, Olomouc, Czech Republic, September 6–9, 2021, Proceedings. Cham: Springer International Publishing, 2021. s. 489-498. ISBN: 978-3-030-83526-2 , ISSN: 0302-9743
OPEN License Selector