Syntéza obrázků člověka podmíněná vstupní pózou

dc.contributor.advisorHrúz Marek, Ing. Ph.D.cs
dc.contributor.authorHonzík, Jakubcs
dc.contributor.refereeGruber Ivan, Ing. Ph.D.cs
dc.date.accepted2025-06-17
dc.date.accessioned2026-02-20T16:37:14Z
dc.date.available2024-10-01
dc.date.available2026-02-20T16:37:14Z
dc.date.issued2025-05-19
dc.date.submitted2025-05-19
dc.description.abstractTato práce se zabývá syntézou znakového jazyka. Trénovací a testovací data pocházejí z datové sady YouTube-ASL. Stabilní difúze byla implementována pomocí knihovny Huggingface Diffusers. Podmínění mapy rysů z HRNetu, detekce hran Cannyho a Sobelovy detekce hran bylo použito prostřednictvím konkatenace nebo jako vstup do ControlNetu. Modely byly testovány kvalitativně pozorováním snímků a kvantitativně měřením vzdáleností a míry detekce klíčových bodů z generovaných snímků a cílových snímků shromážděných pomocí mediapipe a normalizovaných ve znakovém prostoru. Z míry detekce bylo vypočteno skóre F1 s použitím detekce cílového obrazu jako základní pravdy. HRNet podmiňování mělo průměrnou vzdálenost 1,814 a F1 skóre 0,9557; Canny dosáhl 1,29 a 0,9607; Sobel překonal oba s 0,8767 a 0,9714.cs
dc.description.abstract-translatedThis thesis explores the synthesis of sign language. Training and testing data are from the YouTube-ASL dataset. Stable Diffusion was implemented with the use of the Huggingface Diffusers library. Feature map conditionings from HRNet, canny edge detection, Sobel edge detection were used through concatenation or as input into ControlNet. The models were tested qualitatively by observing images and quantitatively by measuring distances and detection rates of keypoints from generated images and target images gathered with mediapipe and normalized in the signing space. From detection rates, F1 scores were calculated using target image detection as ground truth. HRNet conditioning had an average distance 1.814 and the F1 score 0.9557; Canny achieved 1.29 and 0.9607; Sobel outperformed both with 0.8767 and 0.9714, respectively.en
dc.description.departmentKatedra kybernetikycs
dc.description.resultObhájenocs
dc.format54
dc.identifier100004
dc.identifier.urihttp://hdl.handle.net/11025/66117
dc.language.isoen
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezenícs
dc.rights.accessopenAccesscs
dc.subjectZnaková řečcs
dc.subjectneuronové sítěcs
dc.subjectU-Netcs
dc.subjectHRNetcs
dc.subjectYouTube-ASLcs
dc.subjectControlNetcs
dc.subject.translatedSign languageen
dc.subject.translatedneural networksen
dc.subject.translatedU-Neten
dc.subject.translatedHRNeten
dc.subject.translatedYouTube-ASLen
dc.subject.translatedControlNeten
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-levelNavazujícícs
dc.thesis.degree-nameIng.cs
dc.thesis.degree-programKybernetika a řídicí technikacs
dc.titleSyntéza obrázků člověka podmíněná vstupní pózoucs
dc.title.alternativePose-Conditioned Human Image Synthesisen
dc.typediplomová prácecs
local.files.count5*
local.files.size36761849*
local.has.filesyes*
local.relation.IShttps://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=100004

Files

Original bundle
Showing 1 - 5 out of 5 results
No Thumbnail Available
Name:
DP_Honzik_A22N0108P.pdf
Size:
21.92 MB
Format:
Adobe Portable Document Format
Description:
VŠKP
No Thumbnail Available
Name:
2dpSd.zip
Size:
12.98 MB
Format:
ZIP
Description:
VŠKP - příloha
No Thumbnail Available
Name:
PO_Honzik_A22N0108P.pdf
Size:
61.38 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta VŠKP
No Thumbnail Available
Name:
PV_Honzik_A22N0108P.pdf
Size:
62.4 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího VŠKP
No Thumbnail Available
Name:
PB_Honzik_A22N0108P.pdf
Size:
39.7 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby VŠKP

Collections