Počítačové vidění s hlasovou interakcí na Raspberry Pi

Abstract

Umělé neuronové sítě dnes v oblasti počítačového vidění výrazně překonávají "klasické" přístupy, ale mají své vlastní problémy. Trénování umělé neuronové sítě je úkol značně náročný na zdroje (jak z hlediska potřebného hardwaru a výpočetního času, tak i z hlediska potřebných trénovacích dat), po kterém je síť schopna na základě trénovacích dat rozpoznat pouze omezený počet tříd. Vznikne-li požadavek na začlenění nové třídy do rozpoznávacích schopností neuronové sítě, je nutné síť přetrénovat, a to buď od začátku, čímž se dříve vypočtené váhy a prahy stanou irelevantními, nebo pomocí takzvaného "transfer learningu", což je přístup založený na využití vah a prahů získaných z nějakého předchozího trénování sítě, čímž se výrazně zredukuje čas a zdroje potřebné k dosažení požadované přesnosti modelu. V této bakalářské práci je takový koncept využit při implementaci hlasového dialogového systému pro přetrénovávání modelů počítačového vidění, který umožňuje uživateli interaktivně učit systém rozpoznávat nové tváře a objekty. Přesnost hlasového dialogového systému je vyhodnocena prostřednictvím několika experimentů, které prokazují jeho potenciál pro zlepšení přesnosti a adaptability modelů počítačového vidění.

Description

Subject(s)

počítačové vidění, hlasová interakce, rapsberry pi, human-in-the-loop dialog

Citation