Evaluation Datasets for Cross-lingual Semantic Textual Similarity

Hercig, Tomáš

Evaluation Datasets for Cross-lingual Semantic Textual Similarity

Files

2021.ranlp-main.59.pdf (173.99 KB)

Date issued

2021

Authors

Hercig, Tomáš

Král, Pavel

Publisher

INCOMA, Ltd.

Abstract

Systémy sémantické textové podobnosti (STS) odhadují míru významové podobnosti mezi dvěma větami. Mezijazyčné systémy STS odhadují míru významové podobnosti mezi dvěma větami, z nichž každá je v jiném jazyce. Nejmodernější algoritmy obvykle využívají přístupy s učitelem, které je obtížné použít pro jazyky s nedostatečnými zdroji. Každý přístup však musí mít k vyhodnocení výsledků anotovaná data. V tomto článku představujeme nové anotované datasety pro vícejazyčné a jednojazyčné STS pro jazyky, kde takové sady zatím nejsou k dispozici. Na těchto datech dále prezentujeme výsledky několika nejmodernějších metod, které lze použít jako základ pro další výzkum. Věříme, že tento článek nejen rozšíří současný výzkum STS pro další jazyky, ale také podpoří soutěž na těchto nových hodnotících datech.

Subject(s)

Datová sada, Evaluace, mezijazyková, sémantická textovou podobnost, STS

Citation

HERCIG, T. KRÁL, P. Evaluation Datasets for Cross-lingual Semantic Textual Similarity. In Deep Learning for Natural Language Processing Methods and Applications. Shoumen: INCOMA, Ltd., 2021. s. 524-529. ISBN: 978-954-452-072-4 , ISSN: 1313-8502

Item identifier

https://doi.org/2-s2.0-85123631732
http://hdl.handle.net/11025/47197
https://doi.org/10.26615/978-954-452-072-4_059

Collections

OBD
Conference Papers (KIV)

Show full item record

Evaluation Datasets for Cross-lingual Semantic Textual Similarity

Files

Date issued

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Subject(s)

Citation

Item identifier

Collections