Multitask Detection of Speaker Changes, Overlapping Speech and Voice Activity Using Wav2vec 2.0
| dc.contributor.author | Kunešová, Marie | |
| dc.contributor.author | Zajíc, Zbyněk | |
| dc.date.accessioned | 2025-06-20T08:29:37Z | |
| dc.date.available | 2025-06-20T08:29:37Z | |
| dc.date.issued | 2023 | |
| dc.date.updated | 2025-06-20T08:29:37Z | |
| dc.description.abstract | Self-supervised learning approaches have lately achieved great success on a broad spectrum of machine learning problems. In the field of speech processing, one of the most successful recent self-supervised models is wav2vec 2.0. In this paper, we explore the effectiveness of this model on three basic speech classification tasks: speaker change detection, overlapped speech detection, and voice activity detection. First, we concentrate on only one task – speaker change detection – where our proposed system surpasses the previously reported results on four different corpora, and achieves comparable performance even when trained on out-of-domain data from an artificially designed dataset. Then we expand our approach to tackle all three tasks in a single multitask system with state-of-the-art performance on the AMI corpus. The implementation of the algorithms in this paper is publicly available at https://github.com/mkunes/w2v2_audioFrameClassification. | en |
| dc.description.abstract | Samo-učící se přístup k trénování vykazuje veliké úspěchy pro široké spektrum problémů strojového učení. V oboru automatického zpracování řeči je jedním z robustních modelů využívaný wav2vec 2.0. V tomto článku zkoumáme efektivitu tohoto modelu na třech příbuzných problémech: detekce změny řečníka, detekce překryvů řeči a detekce hlasové aktivity. Nejprve jsme vytvořily systém pro první z jmenovaných úloh, který jsme později rozšířili na všechny tři jmenované problémy. Výsledný algoritmus je dostupný online: https://github.com/mkunes/w2v2_audioFrameClassification. | cz |
| dc.format | 5 | |
| dc.identifier.doi | 10.1109/ICASSP49357.2023.10094972 | |
| dc.identifier.isbn | 978-1-72816-327-7 | |
| dc.identifier.issn | 1520-6149 | |
| dc.identifier.obd | 43939753 | |
| dc.identifier.orcid | Kunešová, Marie 0000-0002-7187-8481 | |
| dc.identifier.orcid | Zajíc, Zbyněk 0000-0002-4153-6560 | |
| dc.identifier.uri | http://hdl.handle.net/11025/60003 | |
| dc.language.iso | en | |
| dc.project.ID | LM2023062 | |
| dc.project.ID | VJ01010108 | |
| dc.publisher | IEEE | |
| dc.relation.ispartofseries | 48th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2023) | |
| dc.subject | multitask learning, speaker change detection, overlapped speech detection, voice activity detection, wav2vec 2.0 | en |
| dc.subject | Víceúčelový detektor, detektor změn řečníka, detektor řečových překryvů, detektor hlasové aktivity, wav2vec 2.0 | cz |
| dc.title | Multitask Detection of Speaker Changes, Overlapping Speech and Voice Activity Using Wav2vec 2.0 | en |
| dc.title | Víceúčelový detektor změn řečníka, překryvů a detekce hlasu používající WAV2VEC 2.0 | cz |
| dc.type | Stať ve sborníku (D) | |
| dc.type | STAŤ VE SBORNÍKU | |
| dc.type.status | Published Version | |
| local.files.count | 1 | * |
| local.files.size | 934144 | * |
| local.has.files | yes | * |
| local.identifier.eid | 2-s2.0-85164028766 |
Files
Original bundle
1 - 1 out of 1 results
No Thumbnail Available
- Name:
- Kunesova_Multitask_Detection_of_Speaker_Changes_Overlapping_Speech_and_Voice_Activity_Using_Wav2vec_2.0.pdf
- Size:
- 912.25 KB
- Format:
- Adobe Portable Document Format
License bundle
1 - 1 out of 1 results
No Thumbnail Available
- Name:
- license.txt
- Size:
- 1.71 KB
- Format:
- Item-specific license agreed upon to submission
- Description: