Evaluating Attribution Methods for Explainable NLP with Transformers

Date issued

2022

Journal Title

Journal ISSN

Volume Title

Publisher

Springer

Abstract

Tento článek popisuje evaluaci několika atribučních metod na dvou úlohách NLP: Analýza sentimentu a klasifikace dokumentů s více značkami. Našim cílem je najít nejlepší metodu, kterou lze s Transformers použít k interpretaci rozhodnutí natrénovaného modelu. Vytvořili jsme dvě nové datové sady. První je odvozena ze Stanford Sentiment Treebank, kde je sentiment jednotlivých slov anotován spolu s sentimentem celé věty. Druhý datový soubor pochází z Czech Text Document Corpus, kam jsme přidali informace o klíčových slovech přiřazených ke každé kategorii. Klíčová slova byla ručně přiřazena ke každému dokumentu a automaticky přiřazena ke kategoriím prostřednictvím PMI. Každou atribuční metodu hodnotíme na několika modelech různých velikostí. Výsledky hodnocení jsou konzistentní napříč všemi modely a oběma datovými soubory. To znamená, že oba soubory dat s navrženými vyhodnocovacími metrikami jsou vhodné pro evaluaci vysvětlitelnosti modelů. Ukazujeme, jak se atribuční metody chovají s ohledem na velikost modelu a úlohu. Zvažujeme také praktické aplikace -- ukazujeme, že i když některé metody fungují velice dobře, lze je nahradit o něco hůře fungujícími metodami, které ale potřebují výrazně méně času.

Description

Subject(s)

Vysvětlitelná umělá inteligence, atribuční metody, transformer, klasifikace dokumentů.

Citation

BARTIČKA, V. PRAŽÁK, O. KONOPÍK, M. SIDO, J. Evaluating Attribution Methods for Explainable NLP with Transformers. In 25th International Conference, TSD 2022, Brno, Czech Republic, September 6–9, 2022, Proceedings. Cham: Springer, 2022. s. 1-12. ISBN: 978-3-031-16269-5 , ISSN: 0302-9743