Zarovnání znakového jazyka s přirozeným jazykem.

dc.contributor.advisorHrúz Marek, Ing. Ph.D.cs
dc.contributor.authorMajer, Filipcs
dc.contributor.refereeŽelezný Tomáš, Ing.cs
dc.date.accepted2025-06-17
dc.date.accessioned2026-02-20T16:37:30Z
dc.date.available2024-10-01
dc.date.available2026-02-20T16:37:30Z
dc.date.issued2025-05-19
dc.date.submitted2025-05-19
dc.description.abstractCílem práce je prozkoumat možnosti zlepšení kvality překladu znakového jazyka prostřednictvím architektonických úprav, které využívají časovou souvislost mezi snímky videa a umožňují trénování pomocí metod zarovnání jazykových reprezentací (angl. language alignment).<br>Práce poskytuje přehled metod zpracování znakového jazyka, kontrastního učení a relevantních modelů založených na architektuře Transformer, jako jsou DINO, VideoViT a Sentence Transformers. Praktická část se zaměřuje na trénování nového modelu s názvem VideoDINO, který využívá vizuální enkodéry DINOv2, klíčové body reprezentující pózu postavy a Temporal Transformer pro zarovnání reprezentací videí znakového jazyka s reprezentacemi textových přepisů. Model je trénován a vyhodnocován na datasetech How2Sign a YouTube-ASL. Experimenty zkoumají vliv kontrastního učení, různých konfigurací modelu a předzpracování vstupu na kvalitu reprezentací videí využívaných pro překlad znakového jazyka. Výsledky jsou vyhodnoceny pomocí vlastní metriky zarovnání a BLEU skóre pro měření kvality překladu. V některých případech model VideoDINO překonal předchozí výsledky BLEU až o 15%.cs
dc.description.abstract-translatedThe goal of this thesis is to investigate whether the quality of sign language translation can be improved through architectural modifications that integrate temporal information across video frames and enable language alignment pretraining.<br>This thesis provides an overview of sign language processing, contrastive learning and relevant models based on the Transformer architecture, such as DINO, VideoViT and Sentence Transformers. The practical part focuses on training a novel model called VideoDINO, which uses DINOv2 visual encoders, pose keypoints and a Temporal Transformer to align representations of sign language videos with representations of textual transcriptions. The model is trained and evaluated on the How2Sign and YouTube-ASL datasets. Experiments explore the impact of contrastive learning, different model configurations and input preprocessing on the quality of video representations used for sign language translation. The results are evaluated using a custom alignment metric and the BLEU score to measure translation performance. In specific cases, the proposed method outperformed the previous approach by up to 15% in terms of BLEU score.en
dc.description.departmentKatedra kybernetikycs
dc.description.resultObhájenocs
dc.format66 s. (120 000 znaků).
dc.identifier100005
dc.identifier.urihttp://hdl.handle.net/11025/66118
dc.language.isoen
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezenícs
dc.rights.accessopenAccesscs
dc.subjectpřeklad znakového jazykacs
dc.subjectzpracování znakového jazykacs
dc.subjectkontrastní učenícs
dc.subjectzarovnání jazykových reprezentacícs
dc.subjectTransformercs
dc.subjectDINOv2cs
dc.subjectVideoViTcs
dc.subjectSentence Transformerscs
dc.subjectTemporal Transformercs
dc.subjectVideoDINOcs
dc.subjectHow2Signcs
dc.subjectYouTube-ASLcs
dc.subjectBLEU skórecs
dc.subject.translatedsign language translationen
dc.subject.translatedsign language processingen
dc.subject.translatedcontrastive learningen
dc.subject.translatedlanguage alignmenten
dc.subject.translatedTransformeren
dc.subject.translatedDINOv2en
dc.subject.translatedVideoViTen
dc.subject.translatedSentence Transformersen
dc.subject.translatedTemporal Transformeren
dc.subject.translatedVideoDINOen
dc.subject.translatedHow2Signen
dc.subject.translatedYouTube-ASLen
dc.subject.translatedBLEU scoreen
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-levelNavazujícícs
dc.thesis.degree-nameIng.cs
dc.thesis.degree-programKybernetika a řídicí technikacs
dc.titleZarovnání znakového jazyka s přirozeným jazykem.cs
dc.title.alternativeSign language to natural language alignment.en
dc.typediplomová prácecs
local.files.count4*
local.files.size29673321*
local.has.filesyes*
local.relation.IShttps://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=100005

Files

Original bundle
Showing 1 - 4 out of 4 results
No Thumbnail Available
Name:
DP_Majer_A23N0056P.pdf
Size:
28.13 MB
Format:
Adobe Portable Document Format
Description:
VŠKP
No Thumbnail Available
Name:
PV_Majer_A23N0056P.pdf
Size:
62.97 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího VŠKP
No Thumbnail Available
Name:
PO_Majer_A23N0056P.pdf
Size:
65.79 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta VŠKP
No Thumbnail Available
Name:
PB_Majer_A23N0056P.pdf
Size:
39.67 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby VŠKP

Collections