Czech Dataset for Cross-lingual Subjectivity Classification
Date issued
2022
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
European Language Resources Association
Abstract
V tomto článku představujeme nový český dataset pro klasifikaci subjektivity, který obsahuje 10 tisíc manuálně označených subjektivních a objektivních vět z filmových recenzí a popisů filmů. Naší hlavní motivací je poskytnout spolehlivý dataset který může být použit společně s již existujícím anglickým datasetem jako test schopnosti předtrénovaných vícejazyčných modelů pro přenost znalosti mezi češtinou a angličtinou. Dva anotátoři označili dataset a dosáhli 0.83 Cohen Kappa metriky. Dále jsme vytvořili doplňkový dataset který obsahuje 200 tisíc automaticky označených vět. Oba datasety jsou volně k použití pro výzkumné účely. Dále jsme provedli tzv. Fine-tuning pěti předtrénovaných modelů založených na architektuře Transformers pro určení základních výsledků, kde dosahujeme 93.56% úspěšnosti. Dále provádíme experimenty, které mají za cíl ověřit možnosti vícejazyčných modelů pro přenos znalosti mezi jazyky.
Description
Subject(s)
subjektivita, dataset, mezijazyčný, klasifikace, transformers, benchmark
Citation
PŘIBÁŇ, P. STEINBERGER, J. Czech Dataset for Cross-lingual Subjectivity Classification. In Proceedings of the Thirteenth Language Resources and Evaluation Conference. Marseille, France: European Language Resources Association, 2022. s. 1381-1391. ISBN: 979-10-95546-72-6