Well-calibrated confidence measures for multi-label text classification with a large number of labels

Maltoudoglou, Lysimachos

Well-calibrated confidence measures for multi-label text classification with a large number of labels

Date issued

2022

Authors

Maltoudoglou, Lysimachos

Publisher

Elsevier

Abstract

Rozšiřujeme naši předchozí práci na Inductive Conformal Prediction (ICP) pro vícetřídní klasifikaci textu a představujeme nový přístup k řešení výpočetní neefektivnosti ICP Label Powerset (LP), která vzniká při práci s velkým počtem jedinečných tříd. Uvádíme experimentální výsledky s použitím původního a navrhovaného efektivního LP-ICP na dvou anglických datasetech a jednom dalším v českém jazyce. Konkrétně aplikujeme LP-ICP na tři klasifikátory hluboké umělé neuronové sítě (ANN) dvou typů: jeden založený na kontextualizovaných (bert) a dva na nekontextualizovaných (word2vec) slovních vektorech. V nastavení LP-ICP přiřazujeme skóre shody množinám značek, z nichž jsou určeny odpovídající p-hodnoty a sady predikcí. Náš přístup se zabývá zvýšenou výpočetní zátěží LP tím, že odstraňuje z uvažování významný počet tříd, které budou mít jistě hodnoty p pod specifikovanou úrovní významnosti. To dramaticky snižuje výpočetní složitost přístupu při plném respektování standardních záruk CP. Naše experimentální výsledky ukazují, že kontextově založený klasifikátor převyšuje nekontextualizovaný klasifikátor a získává nejlepší výsledky pro všechny zkoumané soubory dat. Dobrý výkon základních klasifikátorů je přenášen na jejich ICP protějšky bez jakékoli významné ztráty přesnosti, ale s přidanými výhodami ICP, tj. informacemi o spolehlivosti zapouzdřenými v predikčních sadách. Experimentálně demonstrujeme, že výsledné predikční sady jsou prakticky použitelné, i když sada všech možných sad tříd obsahuje více než 1e+16 kombinací. Empirická chybovost získaných predikčních sad navíc potvrzuje, že naše výstupy jsou dobře kalibrované.

Subject(s)

klasifikace textu, vícetřídnost, Word2vec, BERT, konformní predikce, výpočetní efektivita, míra důvěry

Citation

MALTOUDOGLOU, L. PAISIOS, A. LENC, L. MARTÍNEK, J. KRÁL, P. PAPADOPOULOS, H. Well-calibrated confidence measures for multi-label text classification with a large number of labels. PATTERN RECOGNITION, 2022, roč. 122, č. FEB 2022, s. 1-21. ISSN: 0031-3203

Item identifier

https://doi.org/2-s2.0-85114006535
http://hdl.handle.net/11025/47035
https://doi.org/10.1016/j.patcog.2021.108271

Collections

OBD
Articles (KIV)

Show full item record

Well-calibrated confidence measures for multi-label text classification with a large number of labels

Date issued

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Subject(s)

Citation

Item identifier

Collections