Czech news dataset for semantic textual similarity

Sido, Jakub

Czech news dataset for semantic textual similarity

Files

s10579-024-09795-z.pdf (1.28 MB)

Date issued

2025

Authors

Abstract

This paper describes a novel dataset consisting of sentences with two different semantic similarity annotations; with and without surrounding context. The data originate from the journalistic domain in the Czech language. The final dataset contains 138,556 human annotations divided into train and test sets. In total, 485 journalism students participated in the creation process. To increase the reliability of the test set, we compute the final annotations as an average of 9 individual annotation scores. We evaluate the dataset quality by measuring inter and intra-annotator agreements. Besides agreement numbers, we provide detailed statistics of the collected dataset. We conclude our paper with a baseline experiment of building a system for predicting the semantic similarity of sentences. Due to the massive number of training annotations (116,956), the model significantly outperforms an average annotator (0.92 versus 0.86 of Pearson’s correlation coefficient).
Tento článek popisuje nový soubor dat, který se skládá z vět se dvěma různými anotacemi sémantické podobnosti: s okolním kontextem a bez něj. Data pocházejí z publicistické oblasti v českém jazyce. Výsledná datová sada obsahuje 138 556 lidských anotací rozdělených do trénovací a testovací množiny. Na tvorbě se podílelo celkem 485 studentů žurnalistiky. Pro zvýšení spolehlivosti testovací sady jsme výsledné anotace vypočítali jako průměr 9 individuálních anotačních skóre. Kvalitu datové sady hodnotíme měřením shody mezi jednotlivými anotátory a mezi anotátory navzájem. Kromě čísel shody uvádíme podrobné statistiky shromážděné datové sady. V závěru našeho příspěvku uvádíme základní experiment sestavení systému pro předpovídání sémantické podobnosti vět. Díky obrovskému počtu tréninkových anotací (116 956) model výrazně překonává průměrného anotátora (0,92 oproti 0,86 Pearsonova korelačního koeficientu).

Subject(s)

semantics, context, dataset, human annotation, sémantika, kontext, dataset, lidské anotace

Item identifier

http://hdl.handle.net/11025/67366
https://doi.org/10.1007/s10579-024-09795-z

Collections

Articles (KIV)

Show full item record

Czech news dataset for semantic textual similarity

Files

Date issued

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Subject(s)

Citation

Item identifier

Collections