Automatické rozpoznávání šeptavé řeči
| dc.contributor.advisor | Psutka Josef, doc. Ing. Mgr. Ph.D. | cs |
| dc.contributor.author | Cajthaml, Daniel | cs |
| dc.contributor.referee | Lehečka Jan, Ing. Ph.D. | cs |
| dc.date.accepted | 2025-06-18 | |
| dc.date.accessioned | 2026-02-20T22:49:54Z | |
| dc.date.available | 2024-10-15 | |
| dc.date.available | 2026-02-20T22:49:54Z | |
| dc.date.issued | 2025-05-16 | |
| dc.date.submitted | 2025-05-16 | |
| dc.description.abstract | Tato práce se zaměřuje na automatické rozpoznávání šeptavé řeči v češtině s cílem porovnat dostupné nástroje a metody, včetně moderních i klasických přístupů, jako jsou Wav2Vec 2.0, HMM-DNN a Whisper. V rámci výzkumu byl nahrán a pečlivě anotován 4 hodinový korpus šeptavé řeči v češtině, který posloužil jako základ pro trénování a testování rozpoznávačů. Experimenty ukázaly, že model Wav2Vec 2.0, doladěný na šeptavá data, dosáhl nejlepších výsledků, přičemž předčil i komerčně dostupný nástroj Whisper. Významný pokles chybovosti při dotrénování modelu na šeptavé řeči naznačuje, že i malé množství šeptavých dat může výrazně zlepšit výkon modelu. Porovnání rozpoznávání šeptavé řeči s běžnou řečí ukázalo, že rozdíl v chybovosti mezi těmito dvěma typy řeči není zásadní. Na základě získaných výsledků byly navrženy směry pro další výzkum, zahrnující optimalizaci trénování a metody rozšíření datového korpusu. | cs |
| dc.description.abstract-translated | This thesis focuses on automatic whispered speech recognition in Czech, aiming to compare available tools and methods, including both modern and classical approaches such as Wav2Vec 2.0, HMM-DNN, and Whisper. As part of the research, a 4-hour Czech whispered speech corpus was recorded and carefully annotated, serving as the foundation for training and testing the recognizers. The experiments showed that the Wav2Vec 2.0 model, fine-tuned on whispered data, achieved the best results, surpassing even the commercially available Whisper model. A significant decrease in error rate after fine-tuning the model on whispered speech suggests that even a small amount of whispered data can significantly improve model performance. Comparing whispered speech recognition with normal speech showed that the error rate difference between the two speech types was not significant. Based on the results, directions for future research were proposed, including training optimization and methods for expanding the data corpus. | en |
| dc.description.department | Katedra kybernetiky | cs |
| dc.description.result | Obhájeno | cs |
| dc.format | 49 s. | |
| dc.identifier | 100165 | |
| dc.identifier.uri | http://hdl.handle.net/11025/66197 | |
| dc.language.iso | cs | |
| dc.publisher | Západočeská univerzita v Plzni | cs |
| dc.rights | Plný text práce je přístupný bez omezení | cs |
| dc.rights.access | openAccess | cs |
| dc.subject | automatické rozpoznávání řeči | cs |
| dc.subject | šeptavá řeč | cs |
| dc.subject | Wav2Vec 2.0 | cs |
| dc.subject | HMM-DNN | cs |
| dc.subject | Whisper | cs |
| dc.subject | elektrolarynx | cs |
| dc.subject | Kaldi | cs |
| dc.subject | neznělá řeč | cs |
| dc.subject.translated | automatic speech recognition | en |
| dc.subject.translated | whispered speech | en |
| dc.subject.translated | Wav2Vec 2.0 | en |
| dc.subject.translated | HMM-DNN | en |
| dc.subject.translated | Whisper | en |
| dc.subject.translated | electrolarynx | en |
| dc.subject.translated | Kaldi | en |
| dc.subject.translated | unvoiced speech | en |
| dc.thesis.degree-grantor | Západočeská univerzita v Plzni. Fakulta aplikovaných věd | cs |
| dc.thesis.degree-level | Bakalářský | cs |
| dc.thesis.degree-name | Bc. | cs |
| dc.thesis.degree-program | Kybernetika a řídicí technika | cs |
| dc.title | Automatické rozpoznávání šeptavé řeči | cs |
| dc.title.alternative | Automatic whispered speech recognition | en |
| dc.type | bakalářská práce | cs |
| local.files.count | 4 | * |
| local.files.size | 2837373 | * |
| local.has.files | yes | * |
| local.relation.IS | https://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=100165 |
Files
Original bundle
1 - 4 out of 4 results
No Thumbnail Available
- Name:
- BP_Cajthaml_A22B0155P.pdf
- Size:
- 2.55 MB
- Format:
- Adobe Portable Document Format
- Description:
- VŠKP
No Thumbnail Available
- Name:
- PV_Cajthaml_A22B0155P.pdf
- Size:
- 59.38 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek vedoucího VŠKP
No Thumbnail Available
- Name:
- PO_Cajthaml_A22B0155P.pdf
- Size:
- 60.72 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek oponenta VŠKP
No Thumbnail Available
- Name:
- PB_Cajthaml_A22B0155P.pdf
- Size:
- 39.37 KB
- Format:
- Adobe Portable Document Format
- Description:
- Průběh obhajoby VŠKP