Data Alignment and Duration Modelling in VITS

dc.contributor.authorHanzlíček, Zdeněk
dc.date.accessioned2025-06-20T08:36:09Z
dc.date.available2025-06-20T08:36:09Z
dc.date.issued2024
dc.date.updated2025-06-20T08:36:09Z
dc.description.abstractThe paper analyses data alignment and duration modelling in the modern end-to-end speech synthesis model VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech). The standard version of VITS utilizes the MAS (Monotonic Alignment Search) procedure to align input text/phones and corresponding speech during the training procedure; the alignment is also used to obtain phoneme durations for the stochastic duration predictor training. This study analyzes the resulting MAS alignment and compares it with a reference alignment obtained by an LSTM-based phonetic segmentation system. We also examine the performance of VITS when the reference phonetic segmentation replaces the default MAS alignment. The comparison shows that while the original VITS is still slightly preferred in terms of quality, it provides a less interpretative data alignment. The duration modelling is more transparent in the modified version, allowing better duration control and modifications. The analysis has been carried out on two Czech voices.en
dc.description.abstractTento článek analyzuje zarovnání trénovacích dat a modelování trvání v moderním systému pro syntézu řeči VITS. Standardní verze VITSu používá proceduru MAS, k nalezení zarovnání mezi textem a řečí ve fází trénování. Z tohoto zarovnání rovněž vychází i trénování stochastického prediktoru trvání. Tato studie zkoumá výsledné zarovnání a porovnává jej s referenční fonetickou segmentací. Dále je porovnáváno fungování VITSu, pokud je MAS nahrazen zmíněnou fonetickou segmentací. Výsledky ukazují, že původní verze VITSu dosahuje sice mírně lepší kvality, avšak za cenu horší interpretovatelnosti a řiditelnosti trvání při generování syntetické řeči.cz
dc.format12
dc.identifier.document-number001307848400011
dc.identifier.doi10.1007/978-3-031-70566-3_11
dc.identifier.isbn978-3-031-70565-6
dc.identifier.issn0302-9743
dc.identifier.obd43944185
dc.identifier.orcidHanzlíček, Zdeněk 0000-0002-4001-9289
dc.identifier.urihttp://hdl.handle.net/11025/60352
dc.language.isoen
dc.project.IDGA22-27800S
dc.publisherSpringer International Publishing
dc.relation.ispartofseries27th International Conference on Text, Speech, and Dialogue, TSD 2024
dc.subjecttext-to-speech synthesisen
dc.subjectVITSen
dc.subjectMASen
dc.subjectdurationen
dc.subjectsyntéza řečicz
dc.subjectVITScz
dc.subjectMAScz
dc.subjecttrvánícz
dc.titleData Alignment and Duration Modelling in VITSen
dc.titleZarovnání dat a modelování trvání v modelu VITScz
dc.typeStať ve sborníku (D)
dc.typeSTAŤ VE SBORNÍKU
dc.type.statusPublished Version
local.files.count1*
local.files.size2690386*
local.has.filesyes*
local.identifier.eid2-s2.0-85204377525

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
TSD2024_978-3-031-70566-3.pdf
Size:
2.57 MB
Format:
Adobe Portable Document Format
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: