Well-calibrated confidence measures for multi-label text classification with a large number of labels
| dc.contributor.author | Maltoudoglou, Lysimachos | |
| dc.contributor.author | Paisios, Andreas | |
| dc.contributor.author | Lenc, Ladislav | |
| dc.contributor.author | Martínek, Jiří | |
| dc.contributor.author | Král, Pavel | |
| dc.contributor.author | Papadopoulos, Harris | |
| dc.date.accessioned | 2022-02-28T11:00:25Z | |
| dc.date.available | 2022-02-28T11:00:25Z | |
| dc.date.issued | 2022 | |
| dc.description.abstract | Rozšiřujeme naši předchozí práci na Inductive Conformal Prediction (ICP) pro vícetřídní klasifikaci textu a představujeme nový přístup k řešení výpočetní neefektivnosti ICP Label Powerset (LP), která vzniká při práci s velkým počtem jedinečných tříd. Uvádíme experimentální výsledky s použitím původního a navrhovaného efektivního LP-ICP na dvou anglických datasetech a jednom dalším v českém jazyce. Konkrétně aplikujeme LP-ICP na tři klasifikátory hluboké umělé neuronové sítě (ANN) dvou typů: jeden založený na kontextualizovaných (bert) a dva na nekontextualizovaných (word2vec) slovních vektorech. V nastavení LP-ICP přiřazujeme skóre shody množinám značek, z nichž jsou určeny odpovídající p-hodnoty a sady predikcí. Náš přístup se zabývá zvýšenou výpočetní zátěží LP tím, že odstraňuje z uvažování významný počet tříd, které budou mít jistě hodnoty p pod specifikovanou úrovní významnosti. To dramaticky snižuje výpočetní složitost přístupu při plném respektování standardních záruk CP. Naše experimentální výsledky ukazují, že kontextově založený klasifikátor převyšuje nekontextualizovaný klasifikátor a získává nejlepší výsledky pro všechny zkoumané soubory dat. Dobrý výkon základních klasifikátorů je přenášen na jejich ICP protějšky bez jakékoli významné ztráty přesnosti, ale s přidanými výhodami ICP, tj. informacemi o spolehlivosti zapouzdřenými v predikčních sadách. Experimentálně demonstrujeme, že výsledné predikční sady jsou prakticky použitelné, i když sada všech možných sad tříd obsahuje více než 1e+16 kombinací. Empirická chybovost získaných predikčních sad navíc potvrzuje, že naše výstupy jsou dobře kalibrované. | cs |
| dc.description.abstract-translated | We extend our previous work on Inductive Conformal Prediction (ICP) for multi-label text classification and present a novel approach for addressing the computational inefficiency of the Label Powerset (LP) ICP, arrising when dealing with a high number of unique labels. We present experimental results using the original and the proposed efficient LP-ICP on two English and one Czech language data-sets. Specifically, we apply the LP-ICP on three deep Artificial Neural Network (ANN) classifiers of two types: one based on contextualised (bert) and two on non-contextualised (word2vec) word-embeddings. In the LP-ICP setting we assign nonconformity scores to label-sets from which the corresponding p-values and prediction-sets are determined. Our approach deals with the increased computational burden of LP by eliminating from consideration a significant number of label-sets that will surely have p-values below the specified signif- icance level. This reduces dramatically the computational complexity of the approach while fully respect- ing the standard CP guarantees. Our experimental results show that the contextualised-based classifier surpasses the non-contextualised-based ones and obtains state-of-the-art performance for all data-sets examined. The good performance of the underlying classifiers is carried on to their ICP counterparts without any significant accuracy loss, but with the added benefits of ICP, i.e. the confidence informa- tion encapsulated in the prediction sets. We experimentally demonstrate that the resulting prediction sets can be tight enough to be practically useful even though the set of all possible label-sets contains more than 1e+16 combinations. Additionally, the empirical error rates of the obtained prediction-sets confirm that our outputs are well-calibrated. | en |
| dc.format | 21 s. | cs |
| dc.format.mimetype | application/pdf | |
| dc.identifier.citation | MALTOUDOGLOU, L. PAISIOS, A. LENC, L. MARTÍNEK, J. KRÁL, P. PAPADOPOULOS, H. Well-calibrated confidence measures for multi-label text classification with a large number of labels. PATTERN RECOGNITION, 2022, roč. 122, č. FEB 2022, s. 1-21. ISSN: 0031-3203 | cs |
| dc.identifier.document-number | 697675100001 | |
| dc.identifier.doi | 10.1016/j.patcog.2021.108271 | |
| dc.identifier.issn | 0031-3203 | |
| dc.identifier.obd | 43934749 | |
| dc.identifier.uri | 2-s2.0-85114006535 | |
| dc.identifier.uri | http://hdl.handle.net/11025/47035 | |
| dc.language.iso | en | en |
| dc.project.ID | EF17_048/0007267/InteCom: VaV inteligentních komponent pokročilých technologií pro plzeňskou metropolitní oblast | cs |
| dc.project.ID | SGS-2019-018/Zpracování heterogenních dat a jejich specializované aplikace | cs |
| dc.publisher | Elsevier | en |
| dc.relation.ispartofseries | Pattern Recognition | en |
| dc.rights | Plný text není přístupný. | cs |
| dc.rights | © Elsevier | en |
| dc.rights.access | closedAccess | en |
| dc.subject | klasifikace textu | cs |
| dc.subject | vícetřídnost | cs |
| dc.subject | Word2vec | cs |
| dc.subject | BERT | cs |
| dc.subject | konformní predikce | cs |
| dc.subject | výpočetní efektivita | cs |
| dc.subject | míra důvěry | cs |
| dc.subject.translated | text classification | en |
| dc.subject.translated | multi-label | en |
| dc.subject.translated | Word2vec | en |
| dc.subject.translated | BERT | en |
| dc.subject.translated | conformal prediction | en |
| dc.subject.translated | computational efficiency | en |
| dc.subject.translated | confidence measure | en |
| dc.title | Well-calibrated confidence measures for multi-label text classification with a large number of labels | en |
| dc.title.alternative | Vhodně kalibrované míry spolehlivosti pro vícetřídní klasifikaci textu s vysokým počtem tříd | cs |
| dc.type | článek | cs |
| dc.type | article | en |
| dc.type.status | Peer-reviewed | en |
| dc.type.version | publishedVersion | en |