Comparative Analyses of Multilingual Sentiment Analysis Systems for News and Social Media
Date issued
2023
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Springer
Abstract
In this paper, we present evaluation of three in-house sentiment analysis (SA) systems originally designed for three distinct SA tasks, in a highly multilingual setting. For the evaluation, we collected a large number of available gold standard datasets, in different languages and varied text types. The aim of using different domain datasets was to achieve a clear snapshot of the level of overall performance of the systems and thus obtain a better quality of an evaluation. We compare the results obtained with the best performing systems evaluated on their basis and performed an in-depth error analysis. Based on the results, we can see that some systems perform better for different datasets and tasks than the ones they were designed for, showing that we could replace one system with another and gain an improvement in performance. Our results are hardly comparable with the original dataset results because the datasets often contain a different number of polarity classes than we used, and for some datasets, there are even no basic results. For the cases in which a comparison was possible, our results show that our systems perform very well in view of multilinguality.
V tomto článku představujeme hodnocení tří neveřejných systémů pro analýzu sentimentu (SA), které byly původně navrženy pro tři různé úlohy SA ve vícejazyčném prostředí. Pro hodnocení jsme shromáždili velké množství dostupných datových sad v různých jazycích a doménách. Cílem použití různých doménových datových sad bylo získat jasný přehled o úrovni celkové výkonnosti systémů, a tím získat kvalitnější hodnocení. Získané výsledky jsme porovnali s nejvýkonnějšími systémy a na jejich základě jsme provedli hloubkovou analýzu chyb. Na základě výsledků je vidět, že některé systémy mají lepší výkonnost pro jiné datové sady a úlohy, než pro které byly navrženy, což ukazuje, že bychom mohli nahradit jeden systém jiným a získat zlepšení výkonnosti. Naše výsledky jsou jen stěží srovnatelné s výsledky původních datových sad, protože datové sady často obsahují jiný počet tříd polarity, než jsme použili, a pro některé datové sady dokonce neexistují žádné oficiální výsledky. V případech, kdy bylo srovnání možné, výsledky ukazují, že naše systémy si vedou velmi dobře s ohledem na vícejazyčnost.
V tomto článku představujeme hodnocení tří neveřejných systémů pro analýzu sentimentu (SA), které byly původně navrženy pro tři různé úlohy SA ve vícejazyčném prostředí. Pro hodnocení jsme shromáždili velké množství dostupných datových sad v různých jazycích a doménách. Cílem použití různých doménových datových sad bylo získat jasný přehled o úrovni celkové výkonnosti systémů, a tím získat kvalitnější hodnocení. Získané výsledky jsme porovnali s nejvýkonnějšími systémy a na jejich základě jsme provedli hloubkovou analýzu chyb. Na základě výsledků je vidět, že některé systémy mají lepší výkonnost pro jiné datové sady a úlohy, než pro které byly navrženy, což ukazuje, že bychom mohli nahradit jeden systém jiným a získat zlepšení výkonnosti. Naše výsledky jsou jen stěží srovnatelné s výsledky původních datových sad, protože datové sady často obsahují jiný počet tříd polarity, než jsme použili, a pro některé datové sady dokonce neexistují žádné oficiální výsledky. V případech, kdy bylo srovnání možné, výsledky ukazují, že naše systémy si vedou velmi dobře s ohledem na vícejazyčnost.
Description
Subject(s)
sentiment analysis, multilinguality, evaluation, analýza sentimentu, vícejazyčnost, evaluace