Multilingual Coreference Resolution with Harmonized Annotations

Date issued

2021

Journal Title

Journal ISSN

Volume Title

Publisher

Association for Computational Linguistics

Abstract

V tomto článku popisujeme experimentální systém hledání koreferencí s nově vytvořeným vícejazyčným korpusem CorefUD (Nedoluzhko et al., 2021). Zaměřujeme se na tyto jazyky: čeština, ruština, polština, němčina, španělština a katalánština. Kromě jednojazyčných experimentů kombinujeme tréninková data ve vícejazyčných experimentech a trénujeme dva spojené modely: Jeden pro slovanské jazyky a druhý pro všechny jazyky dohromady. Využíváme model hlubokého učení typu end-to-end, který jsme přizpůsobili pro korpus CorefUD. Naše výsledky ukazují, že můžeme těžit z harmonizovaných anotací a používání spojených modelů výrazně pomáhá jazykům s menšími trénovacími daty.

Description

Subject(s)

hledání koreferencí, mezijazyčné reprezentace, BERT

Citation

PRAŽÁK, O. KONOPÍK, M. SIDO, J. Multilingual Coreference Resolution with Harmonized Annotations. In Deep Learning for Natural Language Processing Methods and Applications. Shoumen: INCOMA Ltd., 2021. s. 1119-1123. ISBN: 978-954-452-072-4 , ISSN: 1313-8502
OPEN License Selector