Speakers Talking Foreign Languages in a Multi-lingual TTS System
Date issued
2021
Journal Title
Journal ISSN
Volume Title
Publisher
Springer International Publishing
Abstract
Článek popisuje experimenty s vícejazyčnými systémy syntézy řeči trénovanými společně z anglických, německých, ruských a českých dat. Experimentální systém založený na LSTM neuronových sítích a trénovatelný neuronový vokodér využívají mezinárodní fonetickou abecedu (IPA), což umožňuje přímou kombinaci různých jazyků. Článek porovnává, zda je společný model schopný spojit a zobecnit informaci obsaženou v trénovacích datech a zda je možné použít jednotlivé hlasy k syntéze jiných jazyků, včetně hlásek specifických pro jednotlivé jazyky. Srozumitelnost generované řeči byla ohodnocena s využitím SUS poslechových testů. Vícejazyčné modely byly rovněž porovnány s nezávislými jednojazyčními modely, kde chybějící cizí hlásky byly nahrazeny nejpodobnějšími hláskami přítomnými v daném jazyku. V poslechových testech byly jednoznačně preferovány vícejazyčné modely.
Description
Subject(s)
syntéza řeči, vícejazyčné systémy syntézy řeči
Citation
HANZLÍČEK, Z. VÍT, J. ŘEZÁČKOVÁ, M. Speakers Talking Foreign Languages in a Multi-lingual TTS System. In Text, Speech, and Dialogue 24th International Conference, TSD 2021, Olomouc, Czech Republic, September 6–9, 2021, Proceedings. Cham: Springer International Publishing, 2021. s. 489-498. ISBN: 978-3-030-83526-2 , ISSN: 0302-9743