Automatické rozpoznávání šeptavé řeči

Date issued

2025-05-16

Journal Title

Journal ISSN

Volume Title

Publisher

Západočeská univerzita v Plzni

Abstract

Tato práce se zaměřuje na automatické rozpoznávání šeptavé řeči v češtině s cílem porovnat dostupné nástroje a metody, včetně moderních i klasických přístupů, jako jsou Wav2Vec 2.0, HMM-DNN a Whisper. V rámci výzkumu byl nahrán a pečlivě anotován 4 hodinový korpus šeptavé řeči v češtině, který posloužil jako základ pro trénování a testování rozpoznávačů. Experimenty ukázaly, že model Wav2Vec 2.0, doladěný na šeptavá data, dosáhl nejlepších výsledků, přičemž předčil i komerčně dostupný nástroj Whisper. Významný pokles chybovosti při dotrénování modelu na šeptavé řeči naznačuje, že i malé množství šeptavých dat může výrazně zlepšit výkon modelu. Porovnání rozpoznávání šeptavé řeči s běžnou řečí ukázalo, že rozdíl v chybovosti mezi těmito dvěma typy řeči není zásadní. Na základě získaných výsledků byly navrženy směry pro další výzkum, zahrnující optimalizaci trénování a metody rozšíření datového korpusu.

Description

Subject(s)

automatické rozpoznávání řeči, šeptavá řeč, Wav2Vec 2.0, HMM-DNN, Whisper, elektrolarynx, Kaldi, neznělá řeč

Citation