LACA: Improving Cross-lingual Aspect-Based Sentiment Analysis with LLM Data Augmentation

Date issued

2025

Journal Title

Journal ISSN

Volume Title

Publisher

Association for Computational Linguistics

Abstract

Cross-lingual aspect-based sentiment analysis (ABSA) involves detailed sentiment analysis in a target language by transferring knowledge from a source language with available annotated data. Most existing methods depend heavily on often unreliable translation tools to bridge the language gap. In this paper, we propose a new approach that leverages a large language model (LLM) to generate high-quality pseudo-labelled data in the target language without the need for translation tools. First, the framework trains an ABSA model to obtain predictions for unlabelled target language data. Next, LLM is prompted to generate natural sentences that better represent these noisy predictions than the original text. The ABSA model is then further fine-tuned on the resulting pseudo-labelled dataset. We demonstrate the effectiveness of this method across six languages and five backbone models, surpassing previous state-of-the-art translation-based approaches. The proposed framework also supports generative models, and we show that fine-tuned LLMs outperform smaller multilingual models.
Mezijazyčná aspektově orientovaná analýza sentimentu (ABSA) se zabývá podrobnou analýzou sentimentu v cílovém jazyce přenosem znalostí ze zdrojového jazyka s dostupnými anotovanými daty. Většina současných metod se při překlenování jazykové bariéry silně spoléhá na často nespolehlivé nástroje strojového překladu. V tomto článku navrhujeme nový přístup, který využívá velký jazykový model (LLM) ke generování vysoce kvalitních pseudo-označených dat v cílovém jazyce bez nutnosti použití překladatelských nástrojů. Nejprve rámec trénuje ABSA model, aby získal předpovědi pro neoznačená data v cílovém jazyce. Následně je LLM instruován ke generování přirozených vět, které lépe reprezentují tyto zašuměné předpovědi než původní text. ABSA model je poté dále dotrénován na vzniklém pseudo-označeném datasetu. Účinnost této metody demonstrujeme napříč šesti jazyky a pěti základními modely, přičemž překonává dosavadní nejmodernější přístupy založené na překladu. Navrhovaný rámec rovněž podporuje generativní modely a ukazujeme, že natrénované LLMs překonávají menší vícejazyčné modely.

Description

Subject(s)

cross-lingual aspect-based sentiment analysis, aspect-based sentiment analysis, large language models, transformers, data augmentation, mezijazyčná aspektově orientovaná analýza sentimentu, aspektově orientovaná analýza sentimentu, velké jazykové modely, transformery, rozšíření dat

Citation