Zarovnání znakového jazyka s přirozeným jazykem.

Majer, Filip

Zarovnání znakového jazyka s přirozeným jazykem.

dc.contributor.advisor	Hrúz Marek, Ing. Ph.D.	cs
dc.contributor.author	Majer, Filip	cs
dc.contributor.referee	Železný Tomáš, Ing.	cs
dc.date.accepted	2025-06-17
dc.date.accessioned	2026-02-20T16:37:30Z
dc.date.available	2024-10-01
dc.date.available	2026-02-20T16:37:30Z
dc.date.issued	2025-05-19
dc.date.submitted	2025-05-19
dc.description.abstract	Cílem práce je prozkoumat možnosti zlepšení kvality překladu znakového jazyka prostřednictvím architektonických úprav, které využívají časovou souvislost mezi snímky videa a umožňují trénování pomocí metod zarovnání jazykových reprezentací (angl. language alignment).<br>Práce poskytuje přehled metod zpracování znakového jazyka, kontrastního učení a relevantních modelů založených na architektuře Transformer, jako jsou DINO, VideoViT a Sentence Transformers. Praktická část se zaměřuje na trénování nového modelu s názvem VideoDINO, který využívá vizuální enkodéry DINOv2, klíčové body reprezentující pózu postavy a Temporal Transformer pro zarovnání reprezentací videí znakového jazyka s reprezentacemi textových přepisů. Model je trénován a vyhodnocován na datasetech How2Sign a YouTube-ASL. Experimenty zkoumají vliv kontrastního učení, různých konfigurací modelu a předzpracování vstupu na kvalitu reprezentací videí využívaných pro překlad znakového jazyka. Výsledky jsou vyhodnoceny pomocí vlastní metriky zarovnání a BLEU skóre pro měření kvality překladu. V některých případech model VideoDINO překonal předchozí výsledky BLEU až o 15%.	cs
dc.description.abstract-translated	The goal of this thesis is to investigate whether the quality of sign language translation can be improved through architectural modifications that integrate temporal information across video frames and enable language alignment pretraining.<br>This thesis provides an overview of sign language processing, contrastive learning and relevant models based on the Transformer architecture, such as DINO, VideoViT and Sentence Transformers. The practical part focuses on training a novel model called VideoDINO, which uses DINOv2 visual encoders, pose keypoints and a Temporal Transformer to align representations of sign language videos with representations of textual transcriptions. The model is trained and evaluated on the How2Sign and YouTube-ASL datasets. Experiments explore the impact of contrastive learning, different model configurations and input preprocessing on the quality of video representations used for sign language translation. The results are evaluated using a custom alignment metric and the BLEU score to measure translation performance. In specific cases, the proposed method outperformed the previous approach by up to 15% in terms of BLEU score.	en
dc.description.department	Katedra kybernetiky	cs
dc.description.result	Obhájeno	cs
dc.format	66 s. (120 000 znaků).
dc.identifier	100005
dc.identifier.uri	http://hdl.handle.net/11025/66118
dc.language.iso	en
dc.publisher	Západočeská univerzita v Plzni	cs
dc.rights	Plný text práce je přístupný bez omezení	cs
dc.rights.access	openAccess	cs
dc.subject	překlad znakového jazyka	cs
dc.subject	zpracování znakového jazyka	cs
dc.subject	kontrastní učení	cs
dc.subject	zarovnání jazykových reprezentací	cs
dc.subject	Transformer	cs
dc.subject	DINOv2	cs
dc.subject	VideoViT	cs
dc.subject	Sentence Transformers	cs
dc.subject	Temporal Transformer	cs
dc.subject	VideoDINO	cs
dc.subject	How2Sign	cs
dc.subject	YouTube-ASL	cs
dc.subject	BLEU skóre	cs
dc.subject.translated	sign language translation	en
dc.subject.translated	sign language processing	en
dc.subject.translated	contrastive learning	en
dc.subject.translated	language alignment	en
dc.subject.translated	Transformer	en
dc.subject.translated	DINOv2	en
dc.subject.translated	VideoViT	en
dc.subject.translated	Sentence Transformers	en
dc.subject.translated	Temporal Transformer	en
dc.subject.translated	VideoDINO	en
dc.subject.translated	How2Sign	en
dc.subject.translated	YouTube-ASL	en
dc.subject.translated	BLEU score	en
dc.thesis.degree-grantor	Západočeská univerzita v Plzni. Fakulta aplikovaných věd	cs
dc.thesis.degree-level	Navazující	cs
dc.thesis.degree-name	Ing.	cs
dc.thesis.degree-program	Kybernetika a řídicí technika	cs
dc.title	Zarovnání znakového jazyka s přirozeným jazykem.	cs
dc.title.alternative	Sign language to natural language alignment.	en
dc.type	diplomová práce	cs
local.files.count	4	*
local.files.size	29673321	*
local.has.files	yes	*
local.relation.IS	https://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=100005

Files

Original bundle

Showing 1 - 4 out of 4 results

Name:: DP_Majer_A23N0056P.pdf
Size:: 28.13 MB
Format:: Adobe Portable Document Format
Description:: VŠKP

Download

Name:: PV_Majer_A23N0056P.pdf
Size:: 62.97 KB
Format:: Adobe Portable Document Format
Description:: Posudek vedoucího VŠKP

Download

Name:: PO_Majer_A23N0056P.pdf
Size:: 65.79 KB
Format:: Adobe Portable Document Format
Description:: Posudek oponenta VŠKP

Download

Name:: PB_Majer_A23N0056P.pdf
Size:: 39.67 KB
Format:: Adobe Portable Document Format
Description:: Průběh obhajoby VŠKP

Download

Collections

Theses (KKY)