Multitask Detection of Speaker Changes, Overlapping Speech and Voice Activity Using Wav2vec 2.0

dc.contributor.authorKunešová, Marie
dc.contributor.authorZajíc, Zbyněk
dc.date.accessioned2025-06-20T08:29:37Z
dc.date.available2025-06-20T08:29:37Z
dc.date.issued2023
dc.date.updated2025-06-20T08:29:37Z
dc.description.abstractSelf-supervised learning approaches have lately achieved great success on a broad spectrum of machine learning problems. In the field of speech processing, one of the most successful recent self-supervised models is wav2vec 2.0. In this paper, we explore the effectiveness of this model on three basic speech classification tasks: speaker change detection, overlapped speech detection, and voice activity detection. First, we concentrate on only one task – speaker change detection – where our proposed system surpasses the previously reported results on four different corpora, and achieves comparable performance even when trained on out-of-domain data from an artificially designed dataset. Then we expand our approach to tackle all three tasks in a single multitask system with state-of-the-art performance on the AMI corpus. The implementation of the algorithms in this paper is publicly available at https://github.com/mkunes/w2v2_audioFrameClassification.en
dc.description.abstractSamo-učící se přístup k trénování vykazuje veliké úspěchy pro široké spektrum problémů strojového učení. V oboru automatického zpracování řeči je jedním z robustních modelů využívaný wav2vec 2.0. V tomto článku zkoumáme efektivitu tohoto modelu na třech příbuzných problémech: detekce změny řečníka, detekce překryvů řeči a detekce hlasové aktivity. Nejprve jsme vytvořily systém pro první z jmenovaných úloh, který jsme později rozšířili na všechny tři jmenované problémy. Výsledný algoritmus je dostupný online: https://github.com/mkunes/w2v2_audioFrameClassification.cz
dc.format5
dc.identifier.doi10.1109/ICASSP49357.2023.10094972
dc.identifier.isbn978-1-72816-327-7
dc.identifier.issn1520-6149
dc.identifier.obd43939753
dc.identifier.orcidKunešová, Marie 0000-0002-7187-8481
dc.identifier.orcidZajíc, Zbyněk 0000-0002-4153-6560
dc.identifier.urihttp://hdl.handle.net/11025/60003
dc.language.isoen
dc.project.IDLM2023062
dc.project.IDVJ01010108
dc.publisherIEEE
dc.relation.ispartofseries48th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2023)
dc.subjectmultitask learning, speaker change detection, overlapped speech detection, voice activity detection, wav2vec 2.0en
dc.subjectVíceúčelový detektor, detektor změn řečníka, detektor řečových překryvů, detektor hlasové aktivity, wav2vec 2.0cz
dc.titleMultitask Detection of Speaker Changes, Overlapping Speech and Voice Activity Using Wav2vec 2.0en
dc.titleVíceúčelový detektor změn řečníka, překryvů a detekce hlasu používající WAV2VEC 2.0cz
dc.typeStať ve sborníku (D)
dc.typeSTAŤ VE SBORNÍKU
dc.type.statusPublished Version
local.files.count1*
local.files.size934144*
local.has.filesyes*
local.identifier.eid2-s2.0-85164028766

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
Kunesova_Multitask_Detection_of_Speaker_Changes_Overlapping_Speech_and_Voice_Activity_Using_Wav2vec_2.0.pdf
Size:
912.25 KB
Format:
Adobe Portable Document Format
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: