Syntéza obrázků člověka podmíněná vstupní pózou
Date issued
2025-05-19
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Západočeská univerzita v Plzni
Abstract
Tato práce se zabývá syntézou znakového jazyka. Trénovací a testovací data pocházejí z datové sady YouTube-ASL. Stabilní difúze byla implementována pomocí knihovny Huggingface Diffusers. Podmínění mapy rysů z HRNetu, detekce hran Cannyho a Sobelovy detekce hran bylo použito prostřednictvím konkatenace nebo jako vstup do ControlNetu. Modely byly testovány kvalitativně pozorováním snímků a kvantitativně měřením vzdáleností a míry detekce klíčových bodů z generovaných snímků a cílových snímků shromážděných pomocí mediapipe a normalizovaných ve znakovém prostoru. Z míry detekce bylo vypočteno skóre F1 s použitím detekce cílového obrazu jako základní pravdy. HRNet podmiňování mělo průměrnou vzdálenost 1,814 a F1 skóre 0,9557; Canny dosáhl 1,29 a 0,9607; Sobel překonal oba s 0,8767 a 0,9714.
Description
Subject(s)
Znaková řeč, neuronové sítě, U-Net, HRNet, YouTube-ASL, ControlNet