Automatic statistical evaluation of quality of unit selection speech synthesis with different prosody manipulations
Date issued
2020
Journal Title
Journal ISSN
Volume Title
Publisher
De Gruyter
Abstract
Kvalita syntézy řeči je zásadním problémem při porovnávání různých systémů převodu textu na řeč (TTS). Navrhli jsme systém pro automatické hodnocení kvality řeči pomocí statistické analýzy časových příznaků (doba trvání, frázování a časové členění analyzované věty) spolu se standardními spektrálními a prozodickými příznaky. Tento systém byl úspěšně testován na větách produkovaných syntetizátorem řeči založeném na principu výběru jednotek s mužským i ženským hlasem s využitím dvou různých přístupy k manipulaci prozodie. Experimenty ukázaly, že pro správné a stabilní výsledky jsou všechny tři typy řečových příznaků (spektrální, prozodické a časové) nezbytné. Počet použitých statistických parametrů má navíc významný dopad na správnost a přesnost hodnocených výsledků. Bylo také prokázáno, že stabilitu celého procesu hodnocení lze vylepšit rozšířením použitého řečového materiálu. Funkčnost navrhovaného systému byla nakonec ověřena porovnáním s výsledky standardního poslechového testu.
Description
Subject(s)
poslechový test, objektivní a subjektivní hodnocení, kvalita syntetické řeči, statistická analýza
Citation
PŘIBIL, J., PŘIBILOVÁ, A., MATOUŠEK, J. Automatic statistical evaluation of quality of unit selection speech synthesis with different prosody manipulations. Journal of Electrical engineering, 2020, roč. 71, č. 2, s. 78-86. ISSN 1335-3632.