Generování obrazových dat pro účely trénování hlubokých neuronových sítí

Abstract

Cílem bakalářské práce je vytvoření a implementace algoritmu pro generování obrázků s texty, imitující texty zpravodajských relací. Tyto obrázky budou následně sloužit pro trénování umělých neuronových sítí pro rozpoznávání textů v obraze. V první části práce jsou analyzovány zpravodajské relace, respektive je zjišťována struktura a rozložení obrazových dat. Dále jsou analyzovány používané texty a znaky včetně používaných fontů. Zjišťováno je také, jaká se nejčastěji objevují slova, speciální nebo v běžném jazyce neobvyklé znaky a symboly a kombinace těchto neobvyklých znaků s používanými slovy nebo druhy textů, jako jsou například jména, místa, povolání, politické strany a podobně. V druhé části se zabývám konkrétním návrhem algoritmu, jeho zobecněním pro možnost použití u různých stanic provozujících zpravodajské relace a v poslední řadě jeho implementací v konkrétním programovacím jazyce. V poslední části je experimentálně ověřena kvalita dosažených výsledků. Jaccardův index (také IoU) rozpoznaných oblastí s textem s použitím stávající natrénované sítě je průměrně 0,7. Dále jsou tyto výsledky diskutovány a podrobněji rozebrány. Úplně na závěr je diskutováno navrhnutí možných vylepšení a budoucí práce navázané na tuto práci.

Description

Subject(s)

generování dat, syntetická data, rozpoznávání textu, zpravodajské relace, neuronové sítě, obrazová data

Citation