Multi-modální analýza emocí z textových a zvukových dat

Abstract

Multimodální klasifikace emocí zahrnuje rozpoznávání emocí z dat, která zahrnují více modalit. Pro rozpoznání emocí se nabízí hned několik modalit. Pohyb obličeje, text, záznam hlasu, nebo videa mluvčího. Tato práce se zaměřuje především na zvukovou a textovou modalitu pro rozpoznávání emocí. Nejprve je provedena extrakce příznaků ze zvukových dat. Následně jsou tyto příznaky použity pro trénování několika modelů pro rozpoznávání emocí ze zvukových dat. Tyto modely jsou založené na umělých neuronových sítích. Modely jsou následně použity pro vytváření příznaků ze zvukových dat. V multimodálních modelech jsou tyto příznaky spojeny s jejich textovými protějšky a použity pro multimodální predikci emocí. Úspěšnost tohoto systému je vyhodnocována na ECF, RAVDESS a IEMOCAP datasetech.

Description

Subject(s)

multi-modální rozpoznání emocí, strojové učení, bert, cnn, python, extrakce příznaků

Citation

Collections