Using Auto-Encoder BiLSTM Neural Network for Czech Grapheme-to-Phoneme Conversion
Date issued
2019
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Springer
Abstract
Důležitou součástí téměř všech současných systémů TTS je konverze grafémů na fonémy (G2P), tj. transkripce jakékoli vstupní sekvence grafémů do správné sekvence fonémů v daném jazyce. Příprava transkripčních pravidel a slovníků výslovnosti bohužel není snadným procesem pro nové jazyky v systémech TTS. Z tohoto důvodu se v předkládané práci zaměřujeme na vytvoření automatického modelu G2P založeného na neuronových sítích (NN). Na rozdíl od většiny souvisejících prací v oboru G2P, kde se jako vstup používají pouze samostatná slova, považujeme za vstup našeho navrhovaného modelu NN celou frázi. Tento přístup by podle našeho názoru měl vést k přesnější fonetické transkripci, protože výslovnost slova může záviset na okolních slovech. Výsledky natrénovaného modelu G2P jsou prezentovány na českém jazyce, kde k spodobě znělosti přes hranici slov dochází poměrně často, a jsou porovnávány s přístupem založeným na pravidlech.
Description
Subject(s)
převod grafémy-fonémy, sequence-to-sequence, neuronové sítě, encoder-decoder model, Česká fonetická transkripce
Citation
JŮZOVÁ, M.., VÍT, J.. Using Auto-Encoder BiLSTM Neural Network for Czech Grapheme-to-Phoneme Conversion. In Text, Speech, and Dialogue 22nd International Conference, TSD 2019, Ljubljana,Slovenia, September 11-13, 2019, Proceedings. Cham: Springer, 2019. s. 91-102. ISBN: 978-3-030-27946-2 , ISSN: 0302-9743