LACA: Improving Cross-lingual Aspect-Based Sentiment Analysis with LLM Data Augmentation

dc.contributor.authorŠmíd, Jakub
dc.contributor.authorPřibáň, Pavel
dc.contributor.authorKrál, Pavel
dc.date.accessioned2026-03-31T18:05:17Z
dc.date.available2026-03-31T18:05:17Z
dc.date.issued2025
dc.date.updated2026-03-31T18:05:17Z
dc.description.abstractCross-lingual aspect-based sentiment analysis (ABSA) involves detailed sentiment analysis in a target language by transferring knowledge from a source language with available annotated data. Most existing methods depend heavily on often unreliable translation tools to bridge the language gap. In this paper, we propose a new approach that leverages a large language model (LLM) to generate high-quality pseudo-labelled data in the target language without the need for translation tools. First, the framework trains an ABSA model to obtain predictions for unlabelled target language data. Next, LLM is prompted to generate natural sentences that better represent these noisy predictions than the original text. The ABSA model is then further fine-tuned on the resulting pseudo-labelled dataset. We demonstrate the effectiveness of this method across six languages and five backbone models, surpassing previous state-of-the-art translation-based approaches. The proposed framework also supports generative models, and we show that fine-tuned LLMs outperform smaller multilingual models.en
dc.description.abstractMezijazyčná aspektově orientovaná analýza sentimentu (ABSA) se zabývá podrobnou analýzou sentimentu v cílovém jazyce přenosem znalostí ze zdrojového jazyka s dostupnými anotovanými daty. Většina současných metod se při překlenování jazykové bariéry silně spoléhá na často nespolehlivé nástroje strojového překladu. V tomto článku navrhujeme nový přístup, který využívá velký jazykový model (LLM) ke generování vysoce kvalitních pseudo-označených dat v cílovém jazyce bez nutnosti použití překladatelských nástrojů. Nejprve rámec trénuje ABSA model, aby získal předpovědi pro neoznačená data v cílovém jazyce. Následně je LLM instruován ke generování přirozených vět, které lépe reprezentují tyto zašuměné předpovědi než původní text. ABSA model je poté dále dotrénován na vzniklém pseudo-označeném datasetu. Účinnost této metody demonstrujeme napříč šesti jazyky a pěti základními modely, přičemž překonává dosavadní nejmodernější přístupy založené na překladu. Navrhovaný rámec rovněž podporuje generativní modely a ukazujeme, že natrénované LLMs překonávají menší vícejazyčné modely.cz
dc.format15
dc.identifier.document-number001596029800041
dc.identifier.doi10.18653/v1/2025.acl-long.41
dc.identifier.isbn979-8-89176-251-0
dc.identifier.obd43947215
dc.identifier.orcidŠmíd, Jakub 0000-0002-4492-5481
dc.identifier.orcidPřibáň, Pavel 0000-0002-8744-8726
dc.identifier.orcidKrál, Pavel 0000-0002-3096-675X
dc.identifier.urihttp://hdl.handle.net/11025/67475
dc.language.isoen
dc.project.IDEH23_021/0008436
dc.publisherAssociation for Computational Linguistics
dc.relation.ispartofseries63rd Annual Meeting of the Association for Computational Linguistics, ACL 2025
dc.subjectcross-lingual aspect-based sentiment analysisen
dc.subjectaspect-based sentiment analysisen
dc.subjectlarge language modelsen
dc.subjecttransformersen
dc.subjectdata augmentationen
dc.subjectmezijazyčná aspektově orientovaná analýza sentimentucz
dc.subjectaspektově orientovaná analýza sentimentucz
dc.subjectvelké jazykové modelycz
dc.subjecttransformerycz
dc.subjectrozšíření datcz
dc.titleLACA: Improving Cross-lingual Aspect-Based Sentiment Analysis with LLM Data Augmentationen
dc.titleLACA: Vylepšení mezijazyčné aspektově orientované analýzy sentimentu pomocí rozšíření dat velkými jazykovými modelycz
dc.typeStať ve sborníku (D)
dc.typeSTAŤ VE SBORNÍKU
dc.type.statusPublished Version
local.files.count1*
local.files.size527346*
local.has.filesyes*
local.identifier.eid2-s2.0-105021033034

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
2025.acl-long.41.pdf
Size:
514.99 KB
Format:
Adobe Portable Document Format
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: