Czech Dataset for Cross-lingual Subjectivity Classification

Přibáň, Pavel

Czech Dataset for Cross-lingual Subjectivity Classification

Files

Přibáň, Steinberger paper-LREC.pdf (347.57 KB)

Date issued

2022

Authors

Přibáň, Pavel

Steinberger, Josef

Publisher

European Language Resources Association

Abstract

V tomto článku představujeme nový český dataset pro klasifikaci subjektivity, který obsahuje 10 tisíc manuálně označených subjektivních a objektivních vět z filmových recenzí a popisů filmů. Naší hlavní motivací je poskytnout spolehlivý dataset který může být použit společně s již existujícím anglickým datasetem jako test schopnosti předtrénovaných vícejazyčných modelů pro přenost znalosti mezi češtinou a angličtinou. Dva anotátoři označili dataset a dosáhli 0.83 Cohen Kappa metriky. Dále jsme vytvořili doplňkový dataset který obsahuje 200 tisíc automaticky označených vět. Oba datasety jsou volně k použití pro výzkumné účely. Dále jsme provedli tzv. Fine-tuning pěti předtrénovaných modelů založených na architektuře Transformers pro určení základních výsledků, kde dosahujeme 93.56% úspěšnosti. Dále provádíme experimenty, které mají za cíl ověřit možnosti vícejazyčných modelů pro přenos znalosti mezi jazyky.

Subject(s)

subjektivita, dataset, mezijazyčný, klasifikace, transformers, benchmark

Citation

PŘIBÁŇ, P. STEINBERGER, J. Czech Dataset for Cross-lingual Subjectivity Classification. In Proceedings of the Thirteenth Language Resources and Evaluation Conference. Marseille, France: European Language Resources Association, 2022. s. 1381-1391. ISBN: 979-10-95546-72-6

Item identifier

https://doi.org/2-s2.0-85144389838
http://hdl.handle.net/11025/51716

Collections

OBD
Conference Papers (KIV)

Show full item record

Czech Dataset for Cross-lingual Subjectivity Classification

Files

Date issued

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Subject(s)

Citation

Item identifier

Collections