Automatické rozpoznávání šeptavé řeči

dc.contributor.advisorPsutka Josef, doc. Ing. Mgr. Ph.D.cs
dc.contributor.authorCajthaml, Danielcs
dc.contributor.refereeLehečka Jan, Ing. Ph.D.cs
dc.date.accepted2025-06-18
dc.date.accessioned2026-02-20T22:49:54Z
dc.date.available2024-10-15
dc.date.available2026-02-20T22:49:54Z
dc.date.issued2025-05-16
dc.date.submitted2025-05-16
dc.description.abstractTato práce se zaměřuje na automatické rozpoznávání šeptavé řeči v češtině s cílem porovnat dostupné nástroje a metody, včetně moderních i klasických přístupů, jako jsou Wav2Vec 2.0, HMM-DNN a Whisper. V rámci výzkumu byl nahrán a pečlivě anotován 4 hodinový korpus šeptavé řeči v češtině, který posloužil jako základ pro trénování a testování rozpoznávačů. Experimenty ukázaly, že model Wav2Vec 2.0, doladěný na šeptavá data, dosáhl nejlepších výsledků, přičemž předčil i komerčně dostupný nástroj Whisper. Významný pokles chybovosti při dotrénování modelu na šeptavé řeči naznačuje, že i malé množství šeptavých dat může výrazně zlepšit výkon modelu. Porovnání rozpoznávání šeptavé řeči s běžnou řečí ukázalo, že rozdíl v chybovosti mezi těmito dvěma typy řeči není zásadní. Na základě získaných výsledků byly navrženy směry pro další výzkum, zahrnující optimalizaci trénování a metody rozšíření datového korpusu.cs
dc.description.abstract-translatedThis thesis focuses on automatic whispered speech recognition in Czech, aiming to compare available tools and methods, including both modern and classical approaches such as Wav2Vec 2.0, HMM-DNN, and Whisper. As part of the research, a 4-hour Czech whispered speech corpus was recorded and carefully annotated, serving as the foundation for training and testing the recognizers. The experiments showed that the Wav2Vec 2.0 model, fine-tuned on whispered data, achieved the best results, surpassing even the commercially available Whisper model. A significant decrease in error rate after fine-tuning the model on whispered speech suggests that even a small amount of whispered data can significantly improve model performance. Comparing whispered speech recognition with normal speech showed that the error rate difference between the two speech types was not significant. Based on the results, directions for future research were proposed, including training optimization and methods for expanding the data corpus.en
dc.description.departmentKatedra kybernetikycs
dc.description.resultObhájenocs
dc.format49 s.
dc.identifier100165
dc.identifier.urihttp://hdl.handle.net/11025/66197
dc.language.isocs
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezenícs
dc.rights.accessopenAccesscs
dc.subjectautomatické rozpoznávání řečics
dc.subjectšeptavá řečcs
dc.subjectWav2Vec 2.0cs
dc.subjectHMM-DNNcs
dc.subjectWhispercs
dc.subjectelektrolarynxcs
dc.subjectKaldics
dc.subjectneznělá řečcs
dc.subject.translatedautomatic speech recognitionen
dc.subject.translatedwhispered speechen
dc.subject.translatedWav2Vec 2.0en
dc.subject.translatedHMM-DNNen
dc.subject.translatedWhisperen
dc.subject.translatedelectrolarynxen
dc.subject.translatedKaldien
dc.subject.translatedunvoiced speechen
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-levelBakalářskýcs
dc.thesis.degree-nameBc.cs
dc.thesis.degree-programKybernetika a řídicí technikacs
dc.titleAutomatické rozpoznávání šeptavé řečics
dc.title.alternativeAutomatic whispered speech recognitionen
dc.typebakalářská prácecs
local.files.count4*
local.files.size2837373*
local.has.filesyes*
local.relation.IShttps://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=100165

Files

Original bundle
Showing 1 - 4 out of 4 results
No Thumbnail Available
Name:
BP_Cajthaml_A22B0155P.pdf
Size:
2.55 MB
Format:
Adobe Portable Document Format
Description:
VŠKP
No Thumbnail Available
Name:
PV_Cajthaml_A22B0155P.pdf
Size:
59.38 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího VŠKP
No Thumbnail Available
Name:
PO_Cajthaml_A22B0155P.pdf
Size:
60.72 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta VŠKP
No Thumbnail Available
Name:
PB_Cajthaml_A22B0155P.pdf
Size:
39.37 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby VŠKP