Zarovnání znakového jazyka s přirozeným jazykem.
Date issued
2025-05-19
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Západočeská univerzita v Plzni
Abstract
Cílem práce je prozkoumat možnosti zlepšení kvality překladu znakového jazyka prostřednictvím architektonických úprav, které využívají časovou souvislost mezi snímky videa a umožňují trénování pomocí metod zarovnání jazykových reprezentací (angl. language alignment).<br>Práce poskytuje přehled metod zpracování znakového jazyka, kontrastního učení a relevantních modelů založených na architektuře Transformer, jako jsou DINO, VideoViT a Sentence Transformers. Praktická část se zaměřuje na trénování nového modelu s názvem VideoDINO, který využívá vizuální enkodéry DINOv2, klíčové body reprezentující pózu postavy a Temporal Transformer pro zarovnání reprezentací videí znakového jazyka s reprezentacemi textových přepisů. Model je trénován a vyhodnocován na datasetech How2Sign a YouTube-ASL. Experimenty zkoumají vliv kontrastního učení, různých konfigurací modelu a předzpracování vstupu na kvalitu reprezentací videí využívaných pro překlad znakového jazyka. Výsledky jsou vyhodnoceny pomocí vlastní metriky zarovnání a BLEU skóre pro měření kvality překladu. V některých případech model VideoDINO překonal předchozí výsledky BLEU až o 15%.
Description
Subject(s)
překlad znakového jazyka, zpracování znakového jazyka, kontrastní učení, zarovnání jazykových reprezentací, Transformer, DINOv2, VideoViT, Sentence Transformers, Temporal Transformer, VideoDINO, How2Sign, YouTube-ASL, BLEU skóre