Homograph Disambiguation with Text-to-Text Transfer Transformer

dc.contributor.authorŘezáčková, Markéta
dc.contributor.authorTihelka, Daniel
dc.contributor.authorMatoušek, Jindřich
dc.date.accessioned2025-06-20T08:36:14Z
dc.date.available2025-06-20T08:36:14Z
dc.date.issued2024
dc.date.updated2025-06-20T08:36:14Z
dc.description.abstractIn recent years, the Text-to-Text Transfer Transformer (T5) neural model has proved very powerful in many text-to-text tasks, including text normalization and grapheme-to-phoneme conversion. In the presented paper, we fine-tuned the T5 model for the task of homograph disambiguation, which is one of the essential components of text-to-speech (TTS) systems. To compare our results to those of other studies, we used an online dataset of US English homographs called Wikipedia Homograph Data. We present our results, which outperformed the previously published single-model approaches. We also focus on more detailed error analysis, model performance on different types of homographs, and the impact of training set size on homograph disambiguation.en
dc.description.abstractV posledních letech se neurální model Text-to-Text Transfer Transformer (T5) ukázal jako velmi účinný v mnoha úlohách z textu na text, včetně normalizace textu a převodu grafémů na fonémy. V tomto článku jsme trénovali T5 model na úloze disambiguace homograf, která je jednou z podstatných součástí systémů převodu textu na řeč (TTS). Abychom porovnali naše výsledky s výsledky jiných studií, použili jsme volně dostupný korpus anglických homograf nazvaný Wikipedia Homograph Data. Prezentujeme naše výsledky, které překonaly dříve publikované jednomodelové přístupy. Zaměřujeme se také na podrobnější analýzu chyb, úspěšnost modelu na různých typech homografů a vliv velikosti trénovací sady na disambiguaci homograf.cz
dc.format5
dc.identifier.document-number001331850102186
dc.identifier.doi10.21437/Interspeech.2024-949
dc.identifier.isbnneuvedeno
dc.identifier.issn2308-457X
dc.identifier.obd43944189
dc.identifier.orcidŘezáčková, Markéta 0000-0002-6194-7826
dc.identifier.orcidTihelka, Daniel 0000-0002-3149-2330
dc.identifier.orcidMatoušek, Jindřich 0000-0002-7408-7730
dc.identifier.urihttp://hdl.handle.net/11025/60362
dc.language.isoen
dc.project.IDSGS-2022-017
dc.project.IDGA22-27800S
dc.publisherInternational Speech Communication Association (ISCA)
dc.relation.ispartofseries25th Interspeech Conference 2024
dc.subjecthomograph disambiguationen
dc.subjectword-sense disambiguationen
dc.subjecttext-to-text transfer transformeren
dc.subjecttext normalizationen
dc.subjectspeech synthesisen
dc.subjectdisambiguace homografcz
dc.subjecttext-to-text transfer transformercz
dc.subjectnormalizace textucz
dc.subjectsytéza řečicz
dc.titleHomograph Disambiguation with Text-to-Text Transfer Transformeren
dc.titleDisambiguace homograf pomocí Text-to-text transfer transformerucz
dc.typeStať ve sborníku (D)
dc.typeSTAŤ VE SBORNÍKU
dc.type.statusPublished Version
local.files.count1*
local.files.size245024*
local.has.filesyes*
local.identifier.eid2-s2.0-85214826736

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
rezackova24_interspeech.pdf
Size:
239.28 KB
Format:
Adobe Portable Document Format
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: