Evaluation Datasets for Cross-lingual Semantic Textual Similarity
Date issued
2021
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
INCOMA, Ltd.
Abstract
Systémy sémantické textové podobnosti (STS) odhadují míru významové podobnosti mezi dvěma větami. Mezijazyčné systémy STS odhadují míru významové podobnosti mezi dvěma větami, z nichž každá je v jiném jazyce. Nejmodernější algoritmy obvykle využívají přístupy s učitelem, které je obtížné použít pro jazyky s nedostatečnými zdroji. Každý přístup však musí mít k vyhodnocení výsledků anotovaná data. V tomto článku představujeme nové anotované datasety pro vícejazyčné a jednojazyčné STS pro jazyky, kde takové sady zatím nejsou k dispozici. Na těchto datech dále prezentujeme výsledky několika nejmodernějších metod, které lze použít jako základ pro další výzkum. Věříme, že tento článek nejen rozšíří současný výzkum STS pro další jazyky, ale také podpoří soutěž na těchto nových hodnotících datech.
Description
Subject(s)
Datová sada, Evaluace, mezijazyková, sémantická textovou podobnost, STS
Citation
HERCIG, T. KRÁL, P. Evaluation Datasets for Cross-lingual Semantic Textual Similarity. In Deep Learning for Natural Language Processing Methods and Applications. Shoumen: INCOMA, Ltd., 2021. s. 524-529. ISBN: 978-954-452-072-4 , ISSN: 1313-8502