Zero-shot Out-of-domain is No Joke: Lessons Learned in the VoiceMOS 2023 MOS Prediction Challenge

Date issued

2024

Journal Title

Journal ISSN

Volume Title

Publisher

International Speech Communication Association (ISCA)

Abstract

This paper describes our team’s experiences in the VoiceMOS Challenge 2023 - a challenge centered around the evaluation of the quality of synthetic or noisy speech. Inspired by our success with an ensemble approach in the first VoiceMOS Challenge in 2022, we submitted an ensemble of four models this time, based on wav2vec 2.0, QuartzNet, CNN-RNN, and LDNet. This was enough to win one of the two tracks we participated in (Track 1b). However, post-challenge analysis shows that only two of the models offer a meaningful contribution in any of the VoiceMOS 2023 tracks, while the other two only degrade the ensemble’s overall performance. On the other hand, post-challenge results on Track 2 (singing voice conversion data) surpassed all our expectations. In the paper, we explain how we tried to deal with the new zero-shot out-of-domain scenarios, analyze the results, and discuss the lessons learned.
Tento článek popisuje zkušenosti našeho týmu z soutěži VoiceMOS Challenge 2023 - soutěži ve strojovém učení zaměřené na hodnocení kvality syntetické nebo zašuměné řeči. Po našem úspěchu v prvním ročníku soutěže VoiceMOS v roce 2022 s přístupem založeným na kombinaci modelů jsme tentokrát předložili kombinaci čtyř modelů, založených na neuronových sítích wav2vec 2.0, QuartzNet, CNN-RNN, and LDNet. To stačilo na vítězství v jedné ze dvou kategorií, kterých jsme se zúčastnili (Track 1b). Následná anlýza výsledku však ukázala, že jen dva z použitých modelů pozitivně přispívaly k celkovým výsledků, zatímco ostatní dva je jen zhoršovaly. Na druhou stranu, neoficiální výsledky v kategorii 2 (na datech z hlasové konverze zpěvu) předčily všechna naše očekávání. V tomto článku vysvětlujeme, jak jsme se snažili vypořádat s novými podmínkami zpracování dat předem neznámého původu, analyzujeme výsledky a probírámé získané poznatky.

Description

Subject(s)

MOS prediction, speech quality assessment, speech synthesis, mean opinion score, predikce MOS, hodnocení kvality řeči, syntéza řeči, mean opinion score

Citation