Zarovnání znakového jazyka s přirozeným jazykem.
| dc.contributor.advisor | Hrúz Marek, Ing. Ph.D. | cs |
| dc.contributor.author | Majer, Filip | cs |
| dc.contributor.referee | Železný Tomáš, Ing. | cs |
| dc.date.accepted | 2025-06-17 | |
| dc.date.accessioned | 2026-02-20T16:37:30Z | |
| dc.date.available | 2024-10-01 | |
| dc.date.available | 2026-02-20T16:37:30Z | |
| dc.date.issued | 2025-05-19 | |
| dc.date.submitted | 2025-05-19 | |
| dc.description.abstract | Cílem práce je prozkoumat možnosti zlepšení kvality překladu znakového jazyka prostřednictvím architektonických úprav, které využívají časovou souvislost mezi snímky videa a umožňují trénování pomocí metod zarovnání jazykových reprezentací (angl. language alignment).<br>Práce poskytuje přehled metod zpracování znakového jazyka, kontrastního učení a relevantních modelů založených na architektuře Transformer, jako jsou DINO, VideoViT a Sentence Transformers. Praktická část se zaměřuje na trénování nového modelu s názvem VideoDINO, který využívá vizuální enkodéry DINOv2, klíčové body reprezentující pózu postavy a Temporal Transformer pro zarovnání reprezentací videí znakového jazyka s reprezentacemi textových přepisů. Model je trénován a vyhodnocován na datasetech How2Sign a YouTube-ASL. Experimenty zkoumají vliv kontrastního učení, různých konfigurací modelu a předzpracování vstupu na kvalitu reprezentací videí využívaných pro překlad znakového jazyka. Výsledky jsou vyhodnoceny pomocí vlastní metriky zarovnání a BLEU skóre pro měření kvality překladu. V některých případech model VideoDINO překonal předchozí výsledky BLEU až o 15%. | cs |
| dc.description.abstract-translated | The goal of this thesis is to investigate whether the quality of sign language translation can be improved through architectural modifications that integrate temporal information across video frames and enable language alignment pretraining.<br>This thesis provides an overview of sign language processing, contrastive learning and relevant models based on the Transformer architecture, such as DINO, VideoViT and Sentence Transformers. The practical part focuses on training a novel model called VideoDINO, which uses DINOv2 visual encoders, pose keypoints and a Temporal Transformer to align representations of sign language videos with representations of textual transcriptions. The model is trained and evaluated on the How2Sign and YouTube-ASL datasets. Experiments explore the impact of contrastive learning, different model configurations and input preprocessing on the quality of video representations used for sign language translation. The results are evaluated using a custom alignment metric and the BLEU score to measure translation performance. In specific cases, the proposed method outperformed the previous approach by up to 15% in terms of BLEU score. | en |
| dc.description.department | Katedra kybernetiky | cs |
| dc.description.result | Obhájeno | cs |
| dc.format | 66 s. (120 000 znaků). | |
| dc.identifier | 100005 | |
| dc.identifier.uri | http://hdl.handle.net/11025/66118 | |
| dc.language.iso | en | |
| dc.publisher | Západočeská univerzita v Plzni | cs |
| dc.rights | Plný text práce je přístupný bez omezení | cs |
| dc.rights.access | openAccess | cs |
| dc.subject | překlad znakového jazyka | cs |
| dc.subject | zpracování znakového jazyka | cs |
| dc.subject | kontrastní učení | cs |
| dc.subject | zarovnání jazykových reprezentací | cs |
| dc.subject | Transformer | cs |
| dc.subject | DINOv2 | cs |
| dc.subject | VideoViT | cs |
| dc.subject | Sentence Transformers | cs |
| dc.subject | Temporal Transformer | cs |
| dc.subject | VideoDINO | cs |
| dc.subject | How2Sign | cs |
| dc.subject | YouTube-ASL | cs |
| dc.subject | BLEU skóre | cs |
| dc.subject.translated | sign language translation | en |
| dc.subject.translated | sign language processing | en |
| dc.subject.translated | contrastive learning | en |
| dc.subject.translated | language alignment | en |
| dc.subject.translated | Transformer | en |
| dc.subject.translated | DINOv2 | en |
| dc.subject.translated | VideoViT | en |
| dc.subject.translated | Sentence Transformers | en |
| dc.subject.translated | Temporal Transformer | en |
| dc.subject.translated | VideoDINO | en |
| dc.subject.translated | How2Sign | en |
| dc.subject.translated | YouTube-ASL | en |
| dc.subject.translated | BLEU score | en |
| dc.thesis.degree-grantor | Západočeská univerzita v Plzni. Fakulta aplikovaných věd | cs |
| dc.thesis.degree-level | Navazující | cs |
| dc.thesis.degree-name | Ing. | cs |
| dc.thesis.degree-program | Kybernetika a řídicí technika | cs |
| dc.title | Zarovnání znakového jazyka s přirozeným jazykem. | cs |
| dc.title.alternative | Sign language to natural language alignment. | en |
| dc.type | diplomová práce | cs |
| local.files.count | 4 | * |
| local.files.size | 29673321 | * |
| local.has.files | yes | * |
| local.relation.IS | https://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=100005 |
Files
Original bundle
1 - 4 out of 4 results
No Thumbnail Available
- Name:
- DP_Majer_A23N0056P.pdf
- Size:
- 28.13 MB
- Format:
- Adobe Portable Document Format
- Description:
- VŠKP
No Thumbnail Available
- Name:
- PV_Majer_A23N0056P.pdf
- Size:
- 62.97 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek vedoucího VŠKP
No Thumbnail Available
- Name:
- PO_Majer_A23N0056P.pdf
- Size:
- 65.79 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek oponenta VŠKP
No Thumbnail Available
- Name:
- PB_Majer_A23N0056P.pdf
- Size:
- 39.67 KB
- Format:
- Adobe Portable Document Format
- Description:
- Průběh obhajoby VŠKP