Czech news dataset for semantic textual similarity

Abstract

This paper describes a novel dataset consisting of sentences with two different semantic similarity annotations; with and without surrounding context. The data originate from the journalistic domain in the Czech language. The final dataset contains 138,556 human annotations divided into train and test sets. In total, 485 journalism students participated in the creation process. To increase the reliability of the test set, we compute the final annotations as an average of 9 individual annotation scores. We evaluate the dataset quality by measuring inter and intra-annotator agreements. Besides agreement numbers, we provide detailed statistics of the collected dataset. We conclude our paper with a baseline experiment of building a system for predicting the semantic similarity of sentences. Due to the massive number of training annotations (116,956), the model significantly outperforms an average annotator (0.92 versus 0.86 of Pearson’s correlation coefficient).
Tento článek popisuje nový soubor dat, který se skládá z vět se dvěma různými anotacemi sémantické podobnosti: s okolním kontextem a bez něj. Data pocházejí z publicistické oblasti v českém jazyce. Výsledná datová sada obsahuje 138 556 lidských anotací rozdělených do trénovací a testovací množiny. Na tvorbě se podílelo celkem 485 studentů žurnalistiky. Pro zvýšení spolehlivosti testovací sady jsme výsledné anotace vypočítali jako průměr 9 individuálních anotačních skóre. Kvalitu datové sady hodnotíme měřením shody mezi jednotlivými anotátory a mezi anotátory navzájem. Kromě čísel shody uvádíme podrobné statistiky shromážděné datové sady. V závěru našeho příspěvku uvádíme základní experiment sestavení systému pro předpovídání sémantické podobnosti vět. Díky obrovskému počtu tréninkových anotací (116 956) model výrazně překonává průměrného anotátora (0,92 oproti 0,86 Pearsonova korelačního koeficientu).

Description

Subject(s)

semantics, context, dataset, human annotation, sémantika, kontext, dataset, lidské anotace

Citation

Collections