Evaluating Phoneme-Level Pretraining in Czech Text-to-Speech Synthesis

dc.contributor.authorVladař, Lukáš
dc.contributor.authorMatoušek, Jindřich
dc.contributor.authorLehečka, Jan
dc.contributor.authorŘezáčková, Markéta
dc.date.accessioned2026-04-20T18:05:59Z
dc.date.available2026-04-20T18:05:59Z
dc.date.issued2026
dc.date.updated2026-04-20T18:05:59Z
dc.description.abstractPretrained phoneme-level models such as Phoneme-Level BERT and XPhoneBERT have shown promising results in enhancing prosody and expressiveness in English TTS systems. However, their effectiveness in less-studied languages with different prosodic characteristics—such as Czech—remains underexplored. This paper investigates their applicability in Czech text-to-speech synthesis by evaluating PL-BERT within the StyleTTS 2 framework and XPhoneBERT within the VITS architecture. We conduct experiments under both highand and low-resource conditions using professionally read Czech news-style speech to determine the benefits of these pretrained phoneme-level models in Czech speech synthesis and to compare them to each otheren
dc.description.abstractModely předtrénované na úrovni fonémů, jako např. Phoneme-Level BERT či XPhoneBERT, prokazují slibné výsledky ve zlepšování prozodie a výrazu anglických systémů TTS. Jejich přínos v méně studovaných jazycích s odlišnými prozodickými charakteristikami—např. v češtině—však zatím není příliš prozkoumán. Tento článek se zabývá jejich použitelností pro syntézu řeči v češtině, konkrétně hodnotí použití modelu PL-BERT v rámci frameworku StyleTTS2 a modelu XPhoneBERT zakomponovaného do architektury VITS. Provedli jsme experimenty při dostatečném i omezeném množství trénovacích dat reprezentovaných profesionálně čtenými zpravodajskými nahrávkami, abychom odhalili výhody těchto modelů předtrénovaných na úrovni fonémů pro českou syntézu řeči a abychom zmíněné modely porovnaly navzájem.cz
dc.format12
dc.identifier.document-number001576343000014
dc.identifier.doi10.1007/978-3-032-02548-7_14
dc.identifier.isbn978-3-032-02547-0
dc.identifier.issn0302-9743
dc.identifier.obd43947500
dc.identifier.orcidVladař, Lukáš 0009-0009-8047-7303
dc.identifier.orcidMatoušek, Jindřich 0000-0002-7408-7730
dc.identifier.orcidLehečka, Jan 0000-0002-3889-8069
dc.identifier.orcidŘezáčková, Markéta 0000-0002-6194-7826
dc.identifier.urihttp://hdl.handle.net/11025/67717
dc.language.isoen
dc.project.IDSGS-2025-011
dc.publisherSpringer
dc.relation.ispartofseries28th International Conference on Text, Speech, and Dialogue, TSD 2025
dc.subjectphoneme-level pretrainingen
dc.subjectPL-BERTen
dc.subjectXPhoneBERTen
dc.subjectVITSen
dc.subjectStyleTTS 2en
dc.subjectmodely předtrénované na úrovni fonémůcz
dc.subjectPL-BERTcz
dc.subjectXPhoneBERTcz
dc.subjectVITScz
dc.subjectStyleTTS 2cz
dc.titleEvaluating Phoneme-Level Pretraining in Czech Text-to-Speech Synthesisen
dc.titleVýznam modelů předtrénovaných na úrovni fonémů v české syntéze řečicz
dc.typeStať ve sborníku (D)
dc.typeSTAŤ VE SBORNÍKU
dc.type.statusPublished Version
local.files.count1*
local.files.size1084793*
local.has.filesyes*
local.identifier.eid2-s2.0-105014392462

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
paper.pdf
Size:
1.03 MB
Format:
Adobe Portable Document Format
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: