Atribuční metody pro Transformer modely

Abstract

Tato práce zkoumá atrubuční metody aplikovatelné na Transformer modely pomocí datových sad SST a CTDC. Do datové sady CTDC přidáváme anotace založené na klíčových slovech a bodové vzájemné informaci, čímž umožňujeme evaluaci atribučních metod na české datové sadě. Používáme sedm modelů různých velikostí a architektur, každý s pěti instancemi, což nám umožňuje měřit vliv náhodné inicializace a velikosti modelu. Používáme také destilovaný vícejazyčný model na datové sadě CTDC a ukazujeme, že se rozhoduje racionálně i při použití s jazykem méně frekventovaným v předtrénování. Testujeme atribuční metody s různými referenčními vstupy a počty vzorků, což poskytuje cenné poznatky pro praktické aplikace. Ukazujeme, že přeučení negativně ovlivňuje atribuční metody využívající gradient, zatímco u metody KernelSHAP, která gradient nevyužívá, dochází k velmi malému zhoršení.

Description

Subject(s)

vysvětlitelná umělá inteligence, transformer, neuronové sítě, strojové učení, zpracování přirozeného jazyka, atribuční metody

Citation

Collections