Automatické rozpoznávání šeptavé řeči

Cajthaml, Daniel

Automatické rozpoznávání šeptavé řeči

Files

BP_Cajthaml_A22B0155P.pdf (2.55 MB)

PV_Cajthaml_A22B0155P.pdf (59.38 KB)

PO_Cajthaml_A22B0155P.pdf (60.72 KB)

PB_Cajthaml_A22B0155P.pdf (39.37 KB)

Date issued

2025-05-16

Authors

Cajthaml, Daniel

Publisher

Západočeská univerzita v Plzni

Abstract

Tato práce se zaměřuje na automatické rozpoznávání šeptavé řeči v češtině s cílem porovnat dostupné nástroje a metody, včetně moderních i klasických přístupů, jako jsou Wav2Vec 2.0, HMM-DNN a Whisper. V rámci výzkumu byl nahrán a pečlivě anotován 4 hodinový korpus šeptavé řeči v češtině, který posloužil jako základ pro trénování a testování rozpoznávačů. Experimenty ukázaly, že model Wav2Vec 2.0, doladěný na šeptavá data, dosáhl nejlepších výsledků, přičemž předčil i komerčně dostupný nástroj Whisper. Významný pokles chybovosti při dotrénování modelu na šeptavé řeči naznačuje, že i malé množství šeptavých dat může výrazně zlepšit výkon modelu. Porovnání rozpoznávání šeptavé řeči s běžnou řečí ukázalo, že rozdíl v chybovosti mezi těmito dvěma typy řeči není zásadní. Na základě získaných výsledků byly navrženy směry pro další výzkum, zahrnující optimalizaci trénování a metody rozšíření datového korpusu.

Subject(s)

automatické rozpoznávání řeči, šeptavá řeč, Wav2Vec 2.0, HMM-DNN, Whisper, elektrolarynx, Kaldi, neznělá řeč

Item identifier

http://hdl.handle.net/11025/66197

Collections

Bachelor´s works (KKY)

Show full item record

Automatické rozpoznávání šeptavé řeči

Files

Date issued

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Subject(s)

Citation

Item identifier

Collections