Generování české řeči pomocí neuronových sítí

Date issued

2023

Journal Title

Journal ISSN

Volume Title

Publisher

Západočeská univerzita v Plzni

Abstract

Disertační práce se zaměřuje na nové architektury pro počítačové generování řeči pomocí neuronových sítí. S jejich příchodem došlo k velmi bouřlivému rozvoji nových metod, které umožnily generovat řeč s vyšší kvalitou a přirozeností, než umožňovaly tradiční metody. V teoretické části se uvádí souhrn běžných postupů a důležitých pojmů týkajících se syntézy řeči, jako je například zpracování textu, fonetická abeceda, poslechové testy, anotace a melovský spektrogram. Představeny jsou zde tradiční metody syntézy řeči: konkatenační metoda a statistická parametrická metoda. Teoretická část zároveň popisuje nové architektury neuronových sítí pro syntézu řeči vysoké kvality, a to převážně architektury WaveNet a WaveRNN. Dále je zde představen podpůrný webový nástroj pro vývoj a výzkum syntézy řeči. Experimentální část práce popisuje výstupy, kterých bylo dosaženo vlastní implementací těchto metod na syntézu českého jazyka, a také experimenty, jejichž cílem bylo navrhnout a vyvinout nový systém TTS pro syntézu řeči s vyšší kvalitou než v té době stávající systém, který byl založen na konkatenační metodě. Poslechový test ukázal, že nový systém dosáhl na českém jazyce lepších výsledků. Práce obsahuje i pokusy s trénováním jedné sítě pro více řečníků a také s vícejazyčnou syntézou. Experimenty dále obsahují analýzu trénovacích dat pro nové modely ve srovnání s tradičními metodami. V posledních letech se objevilo značné množství nových architektur, poslední část proto obsahuje jejich ucelený přehled a popisuje podrobněji několik z nich. Jsou zde představeny architektury LPCNet, MelNet, Tacotron, MelGAN, VITS a další. Je zde i diskuse o stávajícím trendu v podobě end-to-end architektur.

Description

Subject(s)

syntéza řeči, tts, neuronové sítě, wavenet, wavernn

Citation

OPEN License Selector