UWB-NTIS Speaker Diarization System for the DIHARD II 2019 Challenge

Date issued

2019

Journal Title

Journal ISSN

Volume Title

Publisher

Curran Associates, Inc.

Abstract

V tomto článku je prezentován systém vyvíjený týmem NTIS za účelem evaluace na soutěži DIHARD II. Základem systému je standartní přístup k diarizaci založený na segmentaci, i/x-vektorové extrakci, shlukování a resegmentaci. Hyperparametry pro každý ze subsystémů byly zvoleny ohledem na klasifikátor domény trénovaný na development setu pro DIHARD II. Náš systém jsme v článku porovnaly se systémem Kaldi a vyhodnotili též kombinaci těchto dvou systémů. Výsledky v době tohoto psaní abstraktu jsou: DER 23.47% a JER 48.99%.
In this paper, we present our system developed by the team from the New Technologies for the Information Society (NTIS) research center of the University of West Bohemia in Pilsen, for the Second DIHARD Speech Diarization Challenge. The base of our system follows the currently-standard approach of segmentation, i/x-vector extraction, clustering, and resegmentation. The hyperparameters for each of the subsystems were selected according to the domain classifier trained on the development set of DIHARD II. We compared our system with results from the Kaldi diarization (with i/x-vectors) and combined these systems. At the time of writing of this abstract, our best submission achieved a DER of 23.47% and a JER of 48.99% on the evaluation set (in Track 1 using reference SAD).

Description

Subject(s)

diarizace, i-vector, x-vector, agglomerativní shlukování, neuronové sítě, detekce změny řečníka

Citation

ZAJÍC, Z., KUNEŠOVÁ, M., HRÚZ, M., VANĚK, J. UWB-NTIS Speaker Diarization System for the DIHARD II 2019 Challenge. In: Proceedings of the 20th Annual Conference of the International Speech Communication Association (Interspeech 2019). Red Hook, NY: Curran Associates, Inc., 2019. s. 993-997. ISBN 978-1-5108-9683-3 , ISSN 2308-457X.
OPEN License Selector