Findings of the Shared Task on Multilingual Coreference Resolution

Abstract

This paper presents an overview of the shared task on multilingual coreference resolution associated with the CRAC 2022 workshop. Shared task participants were supposed to develop trainable systems capable of identifying mentions and clustering them according to identity coreference. The public edition of CorefUD~1.0, which contains \ndatasets{} datasets for \nlanguages{} languages, was used as the source of training and evaluation data. The CoNLL score used in previous coreference-oriented shared tasks was used as the main evaluation metric. There were \nsystems{} coreference prediction systems submitted by \nteams{} participating teams; in addition, there was a competitive Transformer-based baseline system provided by the organizers at the beginning of the shared task. The winner system outperformed the baseline by 12 percentage points (in terms of the CoNLL scores averaged across all datasets for individual languages).
Tento článek představuje přehled otevřené úlohy týkající se vícejazyčného hledání koreferencí spojené s workshopem CRAC 2022. Účastníci měli vyvinout systémy schopné identifikovat entity a shlukovat je podle identity koreference. Veřejné vydání CorefUD~1.0, které obsahuje 13 datasetů pro 10 jazyků bylo použito jako zdroj trénovacích dat. Jako evaluační metriku jsme použili CoNLL skóre používané v dřívějších úlohách na koreference. Bylo odevzdáno 8 systémů z pěti různých týmů; Dále byl vytvořen základní systém založený na architektuře Transformer, který poskytli organizátoři na začátku úlohy. Vítězný systém překonal základní systém o 12 procentních bodů CoNLL skóre zprůměrovaného přes všechny datové sady.

Description

Subject(s)

Coreference resolution, shared task, multilingual dataset. semantics, Hledání koreferencí, vícejazyčná datová sada, otevřená úloha, zpracování sémantiky textu

Citation