Czech news dataset for semantic textual similarity

dc.contributor.authorSido, Jakub
dc.contributor.authorSeják, Michal
dc.contributor.authorPražák, Ondřej
dc.contributor.authorKonopík, Miloslav
dc.contributor.authorMoravec, Václav
dc.date.accessioned2026-03-24T19:05:41Z
dc.date.available2026-03-24T19:05:41Z
dc.date.issued2025
dc.date.updated2026-03-24T19:05:41Z
dc.description.abstractThis paper describes a novel dataset consisting of sentences with two different semantic similarity annotations; with and without surrounding context. The data originate from the journalistic domain in the Czech language. The final dataset contains 138,556 human annotations divided into train and test sets. In total, 485 journalism students participated in the creation process. To increase the reliability of the test set, we compute the final annotations as an average of 9 individual annotation scores. We evaluate the dataset quality by measuring inter and intra-annotator agreements. Besides agreement numbers, we provide detailed statistics of the collected dataset. We conclude our paper with a baseline experiment of building a system for predicting the semantic similarity of sentences. Due to the massive number of training annotations (116,956), the model significantly outperforms an average annotator (0.92 versus 0.86 of Pearson’s correlation coefficient).en
dc.description.abstractTento článek popisuje nový soubor dat, který se skládá z vět se dvěma různými anotacemi sémantické podobnosti: s okolním kontextem a bez něj. Data pocházejí z publicistické oblasti v českém jazyce. Výsledná datová sada obsahuje 138 556 lidských anotací rozdělených do trénovací a testovací množiny. Na tvorbě se podílelo celkem 485 studentů žurnalistiky. Pro zvýšení spolehlivosti testovací sady jsme výsledné anotace vypočítali jako průměr 9 individuálních anotačních skóre. Kvalitu datové sady hodnotíme měřením shody mezi jednotlivými anotátory a mezi anotátory navzájem. Kromě čísel shody uvádíme podrobné statistiky shromážděné datové sady. V závěru našeho příspěvku uvádíme základní experiment sestavení systému pro předpovídání sémantické podobnosti vět. Díky obrovskému počtu tréninkových anotací (116 956) model výrazně překonává průměrného anotátora (0,92 oproti 0,86 Pearsonova korelačního koeficientu).cz
dc.format18
dc.identifier.document-number001371498800001
dc.identifier.doi10.1007/s10579-024-09795-z
dc.identifier.issn1574-020X
dc.identifier.obd43944861
dc.identifier.orcidSido, Jakub 0000-0002-7709-7512
dc.identifier.orcidSeják, Michal 0009-0008-0365-898X
dc.identifier.orcidPražák, Ondřej 0000-0001-5445-7792
dc.identifier.orcidKonopík, Miloslav 0000-0001-7397-1658
dc.identifier.orcidMoravec, Václav 0000-0002-3349-0785
dc.identifier.urihttp://hdl.handle.net/11025/67366
dc.language.isoen
dc.project.IDSGS-2022-016
dc.relation.ispartofseriesLanguage Resources and Evaluation
dc.rights.accessC
dc.subjectsemanticsen
dc.subjectcontexten
dc.subjectdataseten
dc.subjecthuman annotationen
dc.subjectsémantikacz
dc.subjectkontextcz
dc.subjectdatasetcz
dc.subjectlidské anotacecz
dc.titleCzech news dataset for semantic textual similarityen
dc.titleČeský dataset pro sémantickou podobnost textucz
dc.typeČlánek v databázi WoS (Jimp)
dc.typeČLÁNEK
dc.type.statusPublished Version
local.files.count1*
local.files.size1344376*
local.has.filesyes*
local.identifier.eid2-s2.0-85211814751

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
s10579-024-09795-z.pdf
Size:
1.28 MB
Format:
Adobe Portable Document Format
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description:

Collections