Kvalita neurální syntézy řeči v závislosti na množství trénovacích dat
Date issued
2023
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Západočeská univerzita v Plzni
Abstract
Počítačová syntéza řeči umožňuje z nahrávek řeči rekonstruovat hlas řečníka a následně jej použít pro "čtení" libovolného textu. Velmi dobrých výsledků dosahuje zejména syntéza založená na neuronových sítích. Syntetizér pracující tímto způsobem je, zjednodušeně řečeno, funkce závislá na velkém množství parametrů. Pro správné fungování syntetizéru je pak nutné najít optimální hodnoty těchto parametrů. Máme-li k dispozici nahrávky hlasu určitého člověka, můžeme pomocí metod strojového učení nalézt parametry, při jejichž použití syntetizér generuje řeč co možná nejpodobnější hlasu tohoto řečníka (tj. tzv. trénování neuronového modelu).
Computer speech synthesis allows the speaker's voice to be reconstructed from the speech recordings and then used to "read" any text. In particular, neural network-based synthesis achieves very good results. A synthesizer working in this way is, simply put, a function dependent on a large number of parameters. To make the synthesizer work properly, it is then necessary to find the optimal values of these parameters. If we have recordings of a particular person's voice, we can use machine learning methods to find the parameters that make the synthesizer generate speech as similar as possible to that speaker's voice (i.e., neural model training).
Computer speech synthesis allows the speaker's voice to be reconstructed from the speech recordings and then used to "read" any text. In particular, neural network-based synthesis achieves very good results. A synthesizer working in this way is, simply put, a function dependent on a large number of parameters. To make the synthesizer work properly, it is then necessary to find the optimal values of these parameters. If we have recordings of a particular person's voice, we can use machine learning methods to find the parameters that make the synthesizer generate speech as similar as possible to that speaker's voice (i.e., neural model training).
Description
Subject(s)
počítačová syntéza řeči, computer speech synthesis