GMM-Based Evaluation of Synthetic Speech Quality Using 2D Classification in Pleasure-Arousal Scale

Date issued

2021

Journal Title

Journal ISSN

Volume Title

Publisher

MDPI

Abstract

Článek se zaměřuje na popis systému pro automatické hodnocení kvality syntetické řeči založeného na klasifikátoru modelu gaussovských směsí (GMM). Řečový materiál pocházející od skutečného mluvčího se porovnává se syntetizovaným materiálem, aby se identifikovaly podobnosti nebo rozdíly mezi nimi. Finální hodnocení je určeno vzdálenostmi v prostoru potěšení-vzrušení (Pleasure-Arousal, P-A) mezi původní a syntetickou řečí pomocí různých metod syntézy a/nebo prozodických manipulací implementovaných v českém systému převodu textu na řeč. Modely GMM pro kontinuální 2D detekci tříd P-A jsou trénovány pomocí zvukového/řečového materiálu z databází bez jakéhokoli vztahu k původní řeči nebo k syntetizovaným větám. Předběžné a pomocné analýzy ukazují podstatný vliv počtu směsí, počtu a typu použitých řečových příznaků, velikosti zpracovaného řečového materiálu a typu databáze použité k vytvoření GMM na klasifikaci P-A procesu a na konečném výsledku hodnocení. Hlavní evaluační experimenty potvrzují funkčnost vyvinutého systému. Získané výsledky objektivního hodnocení jsou v zásadě korelovány se subjektivním hodnocením lidských hodnotitelů; byly však naznačeny dílčí rozdíly, takže je nutné provést následné podrobné šetření.

Description

Subject(s)

klasifikace GMM, statistická analýza, hodnocení syntetické řeči, systém syntézy řeči z textu

Citation

PŘIBIL, J. PŘIBILOVÁ, A. MATOUŠEK, J. GMM-Based Evaluation of Synthetic Speech Quality Using 2D Classification in Pleasure-Arousal Scale. Applied Sciences, 2021, roč. 11, č. 1, s. 1-18. ISSN: 2076-3417
OPEN License Selector