Ensemble of Deep Neural Network Models for MOS Prediction

dc.contributor.authorKunešová, Marie
dc.contributor.authorMatoušek, Jindřich
dc.contributor.authorLehečka, Jan
dc.contributor.authorŠvec, Jan
dc.contributor.authorMichálek, Josef
dc.contributor.authorTihelka, Daniel
dc.contributor.authorBulín, Martin
dc.contributor.authorHanzlíček, Zdeněk
dc.contributor.authorŘezáčková, Markéta
dc.date.accessioned2025-06-20T08:23:49Z
dc.date.available2025-06-20T08:23:49Z
dc.date.issued2023
dc.date.updated2025-06-20T08:23:49Z
dc.description.abstractAutomatic evaluation of the quality of synthetic speech has the potential to serve as a cheaper and less time-consuming alternative to standard listening tests. In this paper, we present our contribution to the ongoing research: a system for automatic prediction of the mean opinion score (MOS) given by human listeners. The system was specifically developed for the recent VoiceMOS Challenge. Following the success of fusion systems in similar challenges, our contribution is an ensemble that interpolates the outputs of seven different models: four different wav2vec models, a CNN-RNN model, QuartzNet, and the LDNet baseline. During the VoiceMOS challenge, our system achieved the second-best utterance-level MSE of 0.171 and ranged from 2nd to 8th place among all 22 participating teams in terms of other evaluation metrics.en
dc.description.abstractAutomatické hodnocení kvality syntetické řeči má potenciál stát se levnější a méně časově náročnou alternativou ke standardním poslechovým testům. V tomto článku představujeme náš příspěvek k probíhajícímu výzkumu: systém pro automatickou predikci mean opinion score (MOS) daného lidskými posluchači. Systém byl speciálně vyvinut pro nedávnou soutěž VoiceMOS Challenge. V návaznosti na úspěch kombinovaných systémů v podobných soutěžích je náš systém koncipován jako ensemble interpolující výstupy sedmi různých modelů: čtyři různé wav2vec modely, CNN-RNN model, QuartzNet a soutežní baseline LDNet. Během soutěže VoiceMOS náš systém dosáhl druhého nejlepšího výsledku z hlediska MSE na úrovni nahrávek - 0.171 - a podle ostatních vyhodnocovacích metrik se umístil mezi 2. a 8. místem z 22 účastnících se týmů.cz
dc.format5
dc.identifier.doi10.1109/ICASSP49357.2023.10095676
dc.identifier.isbn978-1-72816-327-7
dc.identifier.issn1520-6149
dc.identifier.obd43939754
dc.identifier.orcidKunešová, Marie 0000-0002-7187-8481
dc.identifier.orcidMatoušek, Jindřich 0000-0002-7408-7730
dc.identifier.orcidLehečka, Jan 0000-0002-3889-8069
dc.identifier.orcidŠvec, Jan 0000-0001-8362-5927
dc.identifier.orcidMichálek, Josef 0000-0001-7757-3163
dc.identifier.orcidTihelka, Daniel 0000-0002-3149-2330
dc.identifier.orcidBulín, Martin 0000-0003-0276-3143
dc.identifier.orcidHanzlíček, Zdeněk 0000-0002-4001-9289
dc.identifier.orcidŘezáčková, Markéta 0000-0002-6194-7826
dc.identifier.urihttp://hdl.handle.net/11025/59575
dc.language.isoen
dc.project.IDSGS-2022-017
dc.project.IDGA22-27800S
dc.publisherIEEE
dc.relation.ispartofseries48th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2023)
dc.subjectMOS predictionen
dc.subjectspeech quality assessmenten
dc.subjectspeech synthesisen
dc.subjectmean opinion scoreen
dc.subjectpredikce MOScz
dc.subjecthodnocení kvality řečicz
dc.subjectsyntéza řečicz
dc.subjectmean opinion scorecz
dc.titleEnsemble of Deep Neural Network Models for MOS Predictionen
dc.titleEnsemble modelů hlubokých neuronových sítí pro predikci MOScz
dc.typeStať ve sborníku (D)
dc.typeSTAŤ VE SBORNÍKU
dc.type.statusPublished Version
local.files.count1*
local.files.size1099105*
local.has.filesyes*
local.identifier.eid2-s2.0-85177577272

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
Kunesova_Ensemble_of_Deep_Neural_Network_Models_for_MOS_Prediction.pdf
Size:
1.05 MB
Format:
Adobe Portable Document Format
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: