Automatic statistical evaluation of quality of unit selection speech synthesis with different prosody manipulations

dc.contributor.authorPřibil, Jiří
dc.contributor.authorPřibilová, Anna
dc.contributor.authorMatoušek, Jindřich
dc.date.accessioned2021-02-08T11:00:24Z
dc.date.available2021-02-08T11:00:24Z
dc.date.issued2020
dc.description.abstractKvalita syntézy řeči je zásadním problémem při porovnávání různých systémů převodu textu na řeč (TTS). Navrhli jsme systém pro automatické hodnocení kvality řeči pomocí statistické analýzy časových příznaků (doba trvání, frázování a časové členění analyzované věty) spolu se standardními spektrálními a prozodickými příznaky. Tento systém byl úspěšně testován na větách produkovaných syntetizátorem řeči založeném na principu výběru jednotek s mužským i ženským hlasem s využitím dvou různých přístupy k manipulaci prozodie. Experimenty ukázaly, že pro správné a stabilní výsledky jsou všechny tři typy řečových příznaků (spektrální, prozodické a časové) nezbytné. Počet použitých statistických parametrů má navíc významný dopad na správnost a přesnost hodnocených výsledků. Bylo také prokázáno, že stabilitu celého procesu hodnocení lze vylepšit rozšířením použitého řečového materiálu. Funkčnost navrhovaného systému byla nakonec ověřena porovnáním s výsledky standardního poslechového testu.cs
dc.description.abstract-translatedQuality of speech synthesis is a crucial issue in comparison of various text-to-speech (TTS) systems. We proposed a system for automatic evaluation of speech quality by statistical analysis of temporal features (time duration, phrasing, and time structuring of an analysed sentence) together with standard spectral and prosodic features. This system was successfully tested on sentences produced by a unit selection speech synthesizer with a male as well as a female voice using two different approaches to prosody manipulation. Experiments have shown that for correct, sharp, and stable results all three types of speech features (spectral, prosodic, and temporal) are necessary. Furthermore, the number of used statistical parameters has a significant impact on the correctness and precision of the evaluated results. It was also demonstrated that the stability of the whole evaluation process is improved by enlarging the used speech material. Finally, the functionality of the proposed system was verified by comparison of the results with those of the standard listening test.en
dc.format9 s.cs
dc.format.mimetypeapplication/pdf
dc.identifier.citationPŘIBIL, J., PŘIBILOVÁ, A., MATOUŠEK, J. Automatic statistical evaluation of quality of unit selection speech synthesis with different prosody manipulations. Journal of Electrical engineering, 2020, roč. 71, č. 2, s. 78-86. ISSN 1335-3632.cs
dc.identifier.document-number536287900002
dc.identifier.doi10.2478/jee-2020-0012
dc.identifier.issn1335-3632
dc.identifier.obd43929603
dc.identifier.uri2-s2.0-85085749611
dc.identifier.urihttp://hdl.handle.net/11025/42609
dc.language.isoenen
dc.project.IDGA19-19324S/Plně trénovatelná syntéza české řeči z textu s využitím hlubokých neuronových sítícs
dc.publisherDe Gruyteren
dc.relation.ispartofseriesJournal of ELECTRICAL ENGINEERINGen
dc.rights© De Gruyteren
dc.rights.accessopenAccessen
dc.subjectposlechový testcs
dc.subjectobjektivní a subjektivní hodnocenícs
dc.subjectkvalita syntetické řečics
dc.subjectstatistická analýzacs
dc.subject.translatedlistening testen
dc.subject.translatedobjective and subjective evaluationen
dc.subject.translatedquality of synthetic speechen
dc.subject.translatedstatistical analysisen
dc.titleAutomatic statistical evaluation of quality of unit selection speech synthesis with different prosody manipulationsen
dc.title.alternativeAutomatická statistická evaluace kvality syntézy řeči výběrem jednotek s různými prozodickými manipulacemics
dc.typečlánekcs
dc.typearticleen
dc.type.statusPeer-revieweden
dc.type.versionpublishedVersionen

Files