Evaluation Datasets for Cross-lingual Semantic Textual Similarity

Date issued

2021

Journal Title

Journal ISSN

Volume Title

Publisher

INCOMA, Ltd.

Abstract

Systémy sémantické textové podobnosti (STS) odhadují míru významové podobnosti mezi dvěma větami. Mezijazyčné systémy STS odhadují míru významové podobnosti mezi dvěma větami, z nichž každá je v jiném jazyce. Nejmodernější algoritmy obvykle využívají přístupy s učitelem, které je obtížné použít pro jazyky s nedostatečnými zdroji. Každý přístup však musí mít k vyhodnocení výsledků anotovaná data. V tomto článku představujeme nové anotované datasety pro vícejazyčné a jednojazyčné STS pro jazyky, kde takové sady zatím nejsou k dispozici. Na těchto datech dále prezentujeme výsledky několika nejmodernějších metod, které lze použít jako základ pro další výzkum. Věříme, že tento článek nejen rozšíří současný výzkum STS pro další jazyky, ale také podpoří soutěž na těchto nových hodnotících datech.

Description

Subject(s)

Datová sada, Evaluace, mezijazyková, sémantická textovou podobnost, STS

Citation

HERCIG, T. KRÁL, P. Evaluation Datasets for Cross-lingual Semantic Textual Similarity. In Deep Learning for Natural Language Processing Methods and Applications. Shoumen: INCOMA, Ltd., 2021. s. 524-529. ISBN: 978-954-452-072-4 , ISSN: 1313-8502