Mezijazyčná analýza sentimentu

Date issued

2024-04-02

Journal Title

Journal ISSN

Volume Title

Publisher

Západočeská univerzita v Plzni

Abstract

Zpracování přirozeného jazyka se stalo důležitou součástí umělé inteligence, kterou denně využívají miliony lidí i firmy v průmyslu. Analýza sentimentu jako přirozená součást zpracování přirozeného jazyka není výjimkou. Tato práce představuje podrobnou studii, která se věnuje mezijazčné analýze sentimentu. Hlavním cílem je prozkoumat, vyhodnotit a navrhnout mezijazyčné metody pro analýzu sentimentu, které dovolují řešit tuto úlohu v jiných jazycích než v angličtině, se zvláštním zaměřením na češtinu. Jádro práce spočívá v mezijazyčných experimentech s úlohou detekce polarity v tzv. zero-shot nastavení, ve kterém jsou k dispozici anotovaná data pouze pro jeden jazyk (zdrojový). Konkrétně v práci využíváme moderní vícejazyčné modely založené na architektuře Transformer a dále modely využívající lineární transformace v kombinaci s neuronovými sítěmi CNN a LSTM. Tyto modely vyhodnocujeme na datových sadách v češtině, francouzštině a angličtině. Naším cílem je porovnat schopnost modelů přenášet znalosti napříč jazyky a zhodnotit kompromis mezi jejich úspěšností a rychlostí trénování a predikce. Pro porovnání jsou vytvořeny základní modely, které dosahují současných state-of-the-art výsledků pro češtinu a francouzštinu. Dále jsou naše výsledky porovnány s výstupy nejnovějších velkých jazykových modelů, tj. modely Llama 2 a ChatGPT. Ukazujeme, že velký vícejazyčný model XLM-R založený na architektuře Transformer konzistentně překonává všechny ostatní mezijazyčné přístupy při tzv. zero-shot detekci polarity. Dále je ukázáno, že menší modely založené na architektuře Transformer jsou výkonnostně srovnatelné se staršími, ale mnohem rychlejšími metodami používající lineární transformace. Této úspěšnosti je dosaženo jen s přibližně 0,01 času potřebného pro natrénování velkého modelu XLM-R. Tyto výsledky podtrhují potenciál metod založených na lineárních transformacích jako pragmatické alternativy. A to zejména v reálných aplikacích používajících modely založených na architektuře Transformer, které jsou pomalejší a náročné na výpočetní zdroje. Velké jazykové modely (Llama 2 a ChatGPT) dosáhly působivých výsledků, které jsou srovnatelné nebo lepší minimálně o 1% - 3%, ale přinášejí další omezení a požadavky. Celkově přispíváme k pochopení mezijazyčné analýzy sentimentu a poskytujeme cenné zkušenosti o silných stránkách a omezeních mezijazyčných přístupů. Dále je představena nová česká datová sada pro detekci subjektivity a navrhnuta nová metoda pro zlepšení výsledků aspektově orientované analýzy sentimentu s vyžitím informací z úlohy značkování sémantických rolí. Nakonec jsme použili moderní techniku nazvanou prompting pro úlohy aspektově orientované analýzy sentimentu a klasifikaci sentimentu.

Description

Subject(s)

Zpracování přiozeného jazyka, analýza sentimentu, strojové učení, mezijazyčná analýza sentimentu, neuronové sítě, vícejazyčná analýza sentimentu, Transformer

Citation

OPEN License Selector