Zero-shot Out-of-domain is No Joke: Lessons Learned in the VoiceMOS 2023 MOS Prediction Challenge

dc.contributor.authorKunešová, Marie
dc.contributor.authorLehečka, Jan
dc.contributor.authorMichálek, Josef
dc.contributor.authorMatoušek, Jindřich
dc.contributor.authorŠvec, Jan
dc.date.accessioned2025-06-20T08:37:52Z
dc.date.available2025-06-20T08:37:52Z
dc.date.issued2024
dc.date.updated2025-06-20T08:37:52Z
dc.description.abstractThis paper describes our team’s experiences in the VoiceMOS Challenge 2023 - a challenge centered around the evaluation of the quality of synthetic or noisy speech. Inspired by our success with an ensemble approach in the first VoiceMOS Challenge in 2022, we submitted an ensemble of four models this time, based on wav2vec 2.0, QuartzNet, CNN-RNN, and LDNet. This was enough to win one of the two tracks we participated in (Track 1b). However, post-challenge analysis shows that only two of the models offer a meaningful contribution in any of the VoiceMOS 2023 tracks, while the other two only degrade the ensemble’s overall performance. On the other hand, post-challenge results on Track 2 (singing voice conversion data) surpassed all our expectations. In the paper, we explain how we tried to deal with the new zero-shot out-of-domain scenarios, analyze the results, and discuss the lessons learned.en
dc.description.abstractTento článek popisuje zkušenosti našeho týmu z soutěži VoiceMOS Challenge 2023 - soutěži ve strojovém učení zaměřené na hodnocení kvality syntetické nebo zašuměné řeči. Po našem úspěchu v prvním ročníku soutěže VoiceMOS v roce 2022 s přístupem založeným na kombinaci modelů jsme tentokrát předložili kombinaci čtyř modelů, založených na neuronových sítích wav2vec 2.0, QuartzNet, CNN-RNN, and LDNet. To stačilo na vítězství v jedné ze dvou kategorií, kterých jsme se zúčastnili (Track 1b). Následná anlýza výsledku však ukázala, že jen dva z použitých modelů pozitivně přispívaly k celkovým výsledků, zatímco ostatní dva je jen zhoršovaly. Na druhou stranu, neoficiální výsledky v kategorii 2 (na datech z hlasové konverze zpěvu) předčily všechna naše očekávání. V tomto článku vysvětlujeme, jak jsme se snažili vypořádat s novými podmínkami zpracování dat předem neznámého původu, analyzujeme výsledky a probírámé získané poznatky.cz
dc.format5
dc.identifier.document-number001331850105005
dc.identifier.doi10.21437/Interspeech.2024-400
dc.identifier.isbnneuvedeno
dc.identifier.issn2308-457X
dc.identifier.obd43943871
dc.identifier.orcidKunešová, Marie 0000-0002-7187-8481
dc.identifier.orcidLehečka, Jan 0000-0002-3889-8069
dc.identifier.orcidMichálek, Josef 0000-0001-7757-3163
dc.identifier.orcidMatoušek, Jindřich 0000-0002-7408-7730
dc.identifier.orcidŠvec, Jan 0000-0001-8362-5927
dc.identifier.urihttp://hdl.handle.net/11025/60538
dc.language.isoen
dc.project.IDGA22-27800S
dc.publisherInternational Speech Communication Association (ISCA)
dc.relation.ispartofseries25th Interspeech Conference 2024
dc.subjectMOS predictionen
dc.subjectspeech quality assessmenten
dc.subjectspeech synthesisen
dc.subjectmean opinion scoreen
dc.subjectpredikce MOScz
dc.subjecthodnocení kvality řečicz
dc.subjectsyntéza řečicz
dc.subjectmean opinion scorecz
dc.titleZero-shot Out-of-domain is No Joke: Lessons Learned in the VoiceMOS 2023 MOS Prediction Challengeen
dc.title"Zero-shot Out-of-domain" není žádná legrace: Poznatky získané v soutěži VoiceMOS Challenge 2023cz
dc.typeStať ve sborníku (D)
dc.typeSTAŤ VE SBORNÍKU
dc.type.statusPublished Version
local.files.count1*
local.files.size308703*
local.has.filesyes*
local.identifier.eid2-s2.0-85214808594

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
kunesova24_interspeech.pdf
Size:
301.47 KB
Format:
Adobe Portable Document Format
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: