Rozpoznávání typů scén zpravodajských pořadů z obrazových dat

Date issued

2020

Journal Title

Journal ISSN

Volume Title

Publisher

Západočeská univerzita v Plzni

Abstract

Výzkumnými pracovníky Katedry kybernetiky Západočeské univerzity v Plzni byl ve spolupráci s firmou SpeechTech s.r.o. vyvinut pro Českou televizi systém, který je schopen automaticky titulkovat přenosy z živého vysílání. S cílem rozvinout systém na pořad Události ČT vznikla tato diplomová práce, která se zabývá rozpoznáváním scén s použitím obrazových dat, aby následně dle typu scény mohl být aplikován příslušný zvukový filtr, který má schopnosti potlačení šumu pozadí a zvyšuje přesnost převodu řeči na text. Pro vývoj systému schopného rozpoznávat scény televizních událostí byly analyzovány různé architektury neuronových sítí. Pro vyhodnocení výkonu sítě byl vytvořen nástroj, který je schopen vygenerovat matici zmatení (confusion matrix) a pro každý vstupní obrázek mapu pozornosti (attention map) a predikci modelu včetně názvu třídy správné klasifikace. Experiment porovnávající různé architektury neuronových sítí ukázal, že InceptionResNetV2 dosahuje nejlepších výsledků během učení v porovnání s ostatními sítěmi. Tudíž tahle síť byla následně analyzována společně s kompaktní architekturou MobileNetV2. Následné analýzy, kromě různých konfigurací sítí, prozkoumávaly i možnosti zpracování časově distribuovaných obrazových dat. Během testování se však ukázalo, že MobileNetV2 sítě jsou schopny přesněji klasifikovat než InceptionResNetV2 a že modely zpracovávající časové sekvence obrázků dosahují ve většině případů nižších přesností, než sítě, které provádí klasifikaci na základě jednoho vstupního obrazu. Z těchto výsledků lze jednoznačně konstatovat, že pro praktické využití je síť MobileNetV2 vhodnější i vzhledem k značně nižšímu celkovému počtu parametrů a s přesností klasifikace přibližně 94 %, což je příznivý výsledek. Zdrojové soubory pro účely této práce jsou dostupné na stránkách: https://github.com/vyskocj/TV-News-Scene-Recognition

Description

Subject(s)

počítačové vidění, zpracování digitalizovaného obrazu, umělá inteligence, rozpoznávání scén, televizní zprávy, neuronové sítě, lstm

Citation

Collections

OPEN License Selector