Automatické rozpoznávání šeptavé řeči
Date issued
2025-05-16
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Západočeská univerzita v Plzni
Abstract
Tato práce se zaměřuje na automatické rozpoznávání šeptavé řeči v češtině s cílem porovnat dostupné nástroje a metody, včetně moderních i klasických přístupů, jako jsou Wav2Vec 2.0, HMM-DNN a Whisper. V rámci výzkumu byl nahrán a pečlivě anotován 4 hodinový korpus šeptavé řeči v češtině, který posloužil jako základ pro trénování a testování rozpoznávačů. Experimenty ukázaly, že model Wav2Vec 2.0, doladěný na šeptavá data, dosáhl nejlepších výsledků, přičemž předčil i komerčně dostupný nástroj Whisper. Významný pokles chybovosti při dotrénování modelu na šeptavé řeči naznačuje, že i malé množství šeptavých dat může výrazně zlepšit výkon modelu. Porovnání rozpoznávání šeptavé řeči s běžnou řečí ukázalo, že rozdíl v chybovosti mezi těmito dvěma typy řeči není zásadní. Na základě získaných výsledků byly navrženy směry pro další výzkum, zahrnující optimalizaci trénování a metody rozšíření datového korpusu.
Description
Subject(s)
automatické rozpoznávání řeči, šeptavá řeč, Wav2Vec 2.0, HMM-DNN, Whisper, elektrolarynx, Kaldi, neznělá řeč