Optimalizace rozmístění pásmových filtrů v MFCC s ohledem na zpracovávanou množinu řečníků

Date issued

2012

Journal Title

Journal ISSN

Volume Title

Publisher

Západočeská univerzita v Plzni

Abstract

V této bakalářské práci se zabýváme problematikou parametrizace řečového signálu pomocí různých způsobů modifikace metody Melovských kepstrálních koeficientů(MFCC) v procesu rozpoznávání řeči s ohledem na množiny řečníků. Naším cílem je ověření optimálního rozmístění a tvaru filtrů na frekvenční ose u metody MFCC. První modifikace metody MFCC spočívá v použití alternativních tvarů filtrů (obdélníkový, cosinusový, sinusový, lichoběžníkový). Druhá modifikace se zabývá odlišným rozmístěním filtrů v melovské bance oproti původnímu, které se snaží o kompenzaci nelinearity citlivosti sluchového ústrojí vůči frekvenci. Ve výsledku zkoumáme vliv těchto modifikací parametrizační metody MFCC na úspěšnost rozpoznávání promluv ze zvolené množiny testovaných dat, pro jednotlivé množiny trénovacích řečníků. Pro realizaci procesů trénování a rozpoznávání používáme modul HTK. Získané poznatky poté konfrontujeme s výsledky dosaženými původním nastavením metody MFCC.

Description

Subject(s)

parametrizace řeči, pásmový filtr, melovské filtry, MFCC

Citation