Zero-shot Out-of-domain is No Joke: Lessons Learned in the VoiceMOS 2023 MOS Prediction Challenge
| dc.contributor.author | Kunešová, Marie | |
| dc.contributor.author | Lehečka, Jan | |
| dc.contributor.author | Michálek, Josef | |
| dc.contributor.author | Matoušek, Jindřich | |
| dc.contributor.author | Švec, Jan | |
| dc.date.accessioned | 2025-06-20T08:37:52Z | |
| dc.date.available | 2025-06-20T08:37:52Z | |
| dc.date.issued | 2024 | |
| dc.date.updated | 2025-06-20T08:37:52Z | |
| dc.description.abstract | This paper describes our team’s experiences in the VoiceMOS Challenge 2023 - a challenge centered around the evaluation of the quality of synthetic or noisy speech. Inspired by our success with an ensemble approach in the first VoiceMOS Challenge in 2022, we submitted an ensemble of four models this time, based on wav2vec 2.0, QuartzNet, CNN-RNN, and LDNet. This was enough to win one of the two tracks we participated in (Track 1b). However, post-challenge analysis shows that only two of the models offer a meaningful contribution in any of the VoiceMOS 2023 tracks, while the other two only degrade the ensemble’s overall performance. On the other hand, post-challenge results on Track 2 (singing voice conversion data) surpassed all our expectations. In the paper, we explain how we tried to deal with the new zero-shot out-of-domain scenarios, analyze the results, and discuss the lessons learned. | en |
| dc.description.abstract | Tento článek popisuje zkušenosti našeho týmu z soutěži VoiceMOS Challenge 2023 - soutěži ve strojovém učení zaměřené na hodnocení kvality syntetické nebo zašuměné řeči. Po našem úspěchu v prvním ročníku soutěže VoiceMOS v roce 2022 s přístupem založeným na kombinaci modelů jsme tentokrát předložili kombinaci čtyř modelů, založených na neuronových sítích wav2vec 2.0, QuartzNet, CNN-RNN, and LDNet. To stačilo na vítězství v jedné ze dvou kategorií, kterých jsme se zúčastnili (Track 1b). Následná anlýza výsledku však ukázala, že jen dva z použitých modelů pozitivně přispívaly k celkovým výsledků, zatímco ostatní dva je jen zhoršovaly. Na druhou stranu, neoficiální výsledky v kategorii 2 (na datech z hlasové konverze zpěvu) předčily všechna naše očekávání. V tomto článku vysvětlujeme, jak jsme se snažili vypořádat s novými podmínkami zpracování dat předem neznámého původu, analyzujeme výsledky a probírámé získané poznatky. | cz |
| dc.format | 5 | |
| dc.identifier.document-number | 001331850105005 | |
| dc.identifier.doi | 10.21437/Interspeech.2024-400 | |
| dc.identifier.isbn | neuvedeno | |
| dc.identifier.issn | 2308-457X | |
| dc.identifier.obd | 43943871 | |
| dc.identifier.orcid | Kunešová, Marie 0000-0002-7187-8481 | |
| dc.identifier.orcid | Lehečka, Jan 0000-0002-3889-8069 | |
| dc.identifier.orcid | Michálek, Josef 0000-0001-7757-3163 | |
| dc.identifier.orcid | Matoušek, Jindřich 0000-0002-7408-7730 | |
| dc.identifier.orcid | Švec, Jan 0000-0001-8362-5927 | |
| dc.identifier.uri | http://hdl.handle.net/11025/60538 | |
| dc.language.iso | en | |
| dc.project.ID | GA22-27800S | |
| dc.publisher | International Speech Communication Association (ISCA) | |
| dc.relation.ispartofseries | 25th Interspeech Conference 2024 | |
| dc.subject | MOS prediction | en |
| dc.subject | speech quality assessment | en |
| dc.subject | speech synthesis | en |
| dc.subject | mean opinion score | en |
| dc.subject | predikce MOS | cz |
| dc.subject | hodnocení kvality řeči | cz |
| dc.subject | syntéza řeči | cz |
| dc.subject | mean opinion score | cz |
| dc.title | Zero-shot Out-of-domain is No Joke: Lessons Learned in the VoiceMOS 2023 MOS Prediction Challenge | en |
| dc.title | "Zero-shot Out-of-domain" není žádná legrace: Poznatky získané v soutěži VoiceMOS Challenge 2023 | cz |
| dc.type | Stať ve sborníku (D) | |
| dc.type | STAŤ VE SBORNÍKU | |
| dc.type.status | Published Version | |
| local.files.count | 1 | * |
| local.files.size | 308703 | * |
| local.has.files | yes | * |
| local.identifier.eid | 2-s2.0-85214808594 |
Files
Original bundle
1 - 1 out of 1 results
No Thumbnail Available
- Name:
- kunesova24_interspeech.pdf
- Size:
- 301.47 KB
- Format:
- Adobe Portable Document Format
License bundle
1 - 1 out of 1 results
No Thumbnail Available
- Name:
- license.txt
- Size:
- 1.71 KB
- Format:
- Item-specific license agreed upon to submission
- Description: