Homograph Disambiguation with Text-to-Text Transfer Transformer

Date issued

2024

Journal Title

Journal ISSN

Volume Title

Publisher

International Speech Communication Association (ISCA)

Abstract

In recent years, the Text-to-Text Transfer Transformer (T5) neural model has proved very powerful in many text-to-text tasks, including text normalization and grapheme-to-phoneme conversion. In the presented paper, we fine-tuned the T5 model for the task of homograph disambiguation, which is one of the essential components of text-to-speech (TTS) systems. To compare our results to those of other studies, we used an online dataset of US English homographs called Wikipedia Homograph Data. We present our results, which outperformed the previously published single-model approaches. We also focus on more detailed error analysis, model performance on different types of homographs, and the impact of training set size on homograph disambiguation.
V posledních letech se neurální model Text-to-Text Transfer Transformer (T5) ukázal jako velmi účinný v mnoha úlohách z textu na text, včetně normalizace textu a převodu grafémů na fonémy. V tomto článku jsme trénovali T5 model na úloze disambiguace homograf, která je jednou z podstatných součástí systémů převodu textu na řeč (TTS). Abychom porovnali naše výsledky s výsledky jiných studií, použili jsme volně dostupný korpus anglických homograf nazvaný Wikipedia Homograph Data. Prezentujeme naše výsledky, které překonaly dříve publikované jednomodelové přístupy. Zaměřujeme se také na podrobnější analýzu chyb, úspěšnost modelu na různých typech homografů a vliv velikosti trénovací sady na disambiguaci homograf.

Description

Subject(s)

homograph disambiguation, word-sense disambiguation, text-to-text transfer transformer, text normalization, speech synthesis, disambiguace homograf, text-to-text transfer transformer, normalizace textu, sytéza řeči

Citation