Multitask Detection of Speaker Changes, Overlapping Speech and Voice Activity Using Wav2vec 2.0

Abstract

Self-supervised learning approaches have lately achieved great success on a broad spectrum of machine learning problems. In the field of speech processing, one of the most successful recent self-supervised models is wav2vec 2.0. In this paper, we explore the effectiveness of this model on three basic speech classification tasks: speaker change detection, overlapped speech detection, and voice activity detection. First, we concentrate on only one task – speaker change detection – where our proposed system surpasses the previously reported results on four different corpora, and achieves comparable performance even when trained on out-of-domain data from an artificially designed dataset. Then we expand our approach to tackle all three tasks in a single multitask system with state-of-the-art performance on the AMI corpus. The implementation of the algorithms in this paper is publicly available at https://github.com/mkunes/w2v2_audioFrameClassification.
Samo-učící se přístup k trénování vykazuje veliké úspěchy pro široké spektrum problémů strojového učení. V oboru automatického zpracování řeči je jedním z robustních modelů využívaný wav2vec 2.0. V tomto článku zkoumáme efektivitu tohoto modelu na třech příbuzných problémech: detekce změny řečníka, detekce překryvů řeči a detekce hlasové aktivity. Nejprve jsme vytvořily systém pro první z jmenovaných úloh, který jsme později rozšířili na všechny tři jmenované problémy. Výsledný algoritmus je dostupný online: https://github.com/mkunes/w2v2_audioFrameClassification.

Description

Subject(s)

multitask learning, speaker change detection, overlapped speech detection, voice activity detection, wav2vec 2.0, Víceúčelový detektor, detektor změn řečníka, detektor řečových překryvů, detektor hlasové aktivity, wav2vec 2.0

Citation