Automatic statistical evaluation of quality of unit selection speech synthesis with different prosody manipulations

Date issued

2020

Journal Title

Journal ISSN

Volume Title

Publisher

De Gruyter

Abstract

Kvalita syntézy řeči je zásadním problémem při porovnávání různých systémů převodu textu na řeč (TTS). Navrhli jsme systém pro automatické hodnocení kvality řeči pomocí statistické analýzy časových příznaků (doba trvání, frázování a časové členění analyzované věty) spolu se standardními spektrálními a prozodickými příznaky. Tento systém byl úspěšně testován na větách produkovaných syntetizátorem řeči založeném na principu výběru jednotek s mužským i ženským hlasem s využitím dvou různých přístupy k manipulaci prozodie. Experimenty ukázaly, že pro správné a stabilní výsledky jsou všechny tři typy řečových příznaků (spektrální, prozodické a časové) nezbytné. Počet použitých statistických parametrů má navíc významný dopad na správnost a přesnost hodnocených výsledků. Bylo také prokázáno, že stabilitu celého procesu hodnocení lze vylepšit rozšířením použitého řečového materiálu. Funkčnost navrhovaného systému byla nakonec ověřena porovnáním s výsledky standardního poslechového testu.

Description

Subject(s)

poslechový test, objektivní a subjektivní hodnocení, kvalita syntetické řeči, statistická analýza

Citation

PŘIBIL, J., PŘIBILOVÁ, A., MATOUŠEK, J. Automatic statistical evaluation of quality of unit selection speech synthesis with different prosody manipulations. Journal of Electrical engineering, 2020, roč. 71, č. 2, s. 78-86. ISSN 1335-3632.