Automatická detekce anotačních chyb v TTS korpusech

dc.contributor.advisorMatoušek, Jindřich
dc.contributor.authorŘezáček, Petr
dc.contributor.refereeTihelka, Daniel
dc.date.accepted2014-09-11
dc.date.accessioned2015-03-25T09:24:50Z
dc.date.available2013-09-23cs
dc.date.available2015-03-25T09:24:50Z
dc.date.issued2014
dc.date.submitted2014-08-29
dc.description.abstractTématem diplomové práce je automatická detekce anotačních chyb v řečových korpusech pořízených pro účely syntézy řeči. Tyto korpusy jsou obvykle rozsáhlé a i přes to, že jsou ručně anotovány, obsahují stále nezanedbatelné množství anotačních a segmentačních chyb, které pak mohou způsobit v syntetizované řeči vznik řečových artefaktů. Práce obsahuje klasifikaci anotačních chyb a definuje jejich detekci jako problém binární klasifikace. Dále navrhuje příznaky, které lze použít pro detekci chyb na slovní úrovni, a zkoumá jejich vliv na úspěšnost klasifikace na ručně anotovaném korpusu. Součástí práce je i porovnání několika typů klasifikátorů na konkrétních datech a~ověřuje možnost přenositelnosti natrénovaného klasifikátoru na řečový korpus jiného hlasu. V rámci práce byla vytvořena sada skriptů, která je přiložena na CD a popsána v příloze.cs
dc.description.abstract-translatedThe subject of this thesis is automatic annotation errors detection in TTS corpora recorded for the purpose of speech synthesis. Although the large corpora are manually annotated, they still contains insignificant number of annotation errors and segmentation errors, which could cause speech artefacts in a synthesized speech. The thesis describes different types of annotation errors and defines their detection as a binary classification problem. Features usable for a word-level error detection are explained in the text, together with their contribution to classification success rate on the manually annotated data. Different types of classifiers are compared and the applicability on different-speaker corpora is examined. A set of scripts was prepared and included on CD, user manual is located in appendix.en
dc.description.departmentKatedra kybernetikycs
dc.description.resultObhájenocs
dc.format42 s., 7 s. Přílohcs
dc.format.mimetypeapplication/pdf
dc.identifier58341
dc.identifier.urihttp://hdl.handle.net/11025/12338
dc.language.isocscs
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezení.cs
dc.rights.accessopenAccessen
dc.subjectsyntéza řečics
dc.subjectřečové korpusycs
dc.subjectanotační chybycs
dc.subjectdetekce chybně anotovaných slovcs
dc.subjectpříznakycs
dc.subjectklasifikacecs
dc.subject.translatedspeech synthesisen
dc.subject.translatedspeech corporaen
dc.subject.translatedannotation errorsen
dc.subject.translatedannotation errors detectionen
dc.subject.translatedfeaturesen
dc.subject.translatedclassificationen
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-levelNavazujícícs
dc.thesis.degree-nameIng.cs
dc.thesis.degree-programAplikované vědy a informatikacs
dc.titleAutomatická detekce anotačních chyb v TTS korpusechcs
dc.title.alternativeAutomatic Annotation Errors Detection in TTS Corporaen
dc.typediplomová prácecs
local.relation.IShttps://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=58341

Files

Original bundle
Showing 1 - 4 out of 4 results
No Thumbnail Available
Name:
diplomova_prace.pdf
Size:
984.49 KB
Format:
Adobe Portable Document Format
Description:
Plný text práce
No Thumbnail Available
Name:
Rezacek-v.pdf
Size:
3.06 MB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího práce
No Thumbnail Available
Name:
Rezacek-o.pdf
Size:
4.66 MB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta práce
No Thumbnail Available
Name:
Rezacek-p.pdf
Size:
1.22 MB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby práce

Collections