Abilities of Contrastive Soft Prompting for Open Domain Rhetorical Question Detection

dc.contributor.authorBaloun, Josef
dc.contributor.authorMartínek, Jiří
dc.contributor.authorCerisara, Christophe
dc.contributor.authorKrál, Pavel
dc.date.accessioned2026-03-31T18:05:31Z
dc.date.available2026-03-31T18:05:31Z
dc.date.issued2025
dc.date.updated2026-03-31T18:05:31Z
dc.description.abstractIn this work, we start by demonstrating experimentally thatrhetorical question detection is still a challenging task, even for state-of-the-art Large Language Models (LLMs).We then propose an approach that boosts the performances of such LLMs by training a soft prompt in a waythat enables building a joint embedding space from multiple loosely related corpora.The advantages of using a soft-prompt compared to finetuning is to limit the training costs and combat overfittingand forgetting. Soft prompting is often viewed as a way to guide the model towards a specific known task, or tointroduce new knowledge into the model through in-context learning.We further show that soft prompting may also be used to modify the geometry of the embedding space, so thatthe distance between embeddings becomes semantically relevant for a target task, similarly to what is commonlyachieved with contrastive finetuning.We exploit this property to combat data scarcity for the task of rhetorical question detection bymerging several datasets into a joint semantic embedding space.We finally show on the standard Switchboard dataset that the resulting BERT-based model nearly divides by 2the number of errors as compared to Flan-T5-XXL with only 5 few-shot labeled samples, thanks to this jointembedding space. We have chosen in our experiments a BERT model because it has already been shown with S-BERT thatcontrastive finetuning of BERT leads to semantically meaningful representations. Therefore, we also show that thisproperty of BERT nicely transfers to the soft-prompting paradigm.Finally, we qualitatively analyze the resulting embedding space and propose a few heuristic criteria to selectappropriate related tasks for inclusion into the pool of training datasets.en
dc.description.abstractV této práci nejprve experimentálně ukazujeme, že detekce rétorických otázek je stále náročný úkol, a to i pro nejmodernější velké jazykové modely (LLM).Dále navrhujeme přístup, který zlepšuje výkonnost těchto LLM prostřednictvím trénování „soft promptu“ způsobem, který umožňuje vytváření společného prostoru vektorových reprezentací z několika volně souvisejících korpusů.Výhodou použití soft promptu oproti jemnému ladění (finetuningu) je omezení nákladů na trénink a snížení rizika přeučení a zapomínání. Soft prompting je často vnímán jako způsob, jak nasměrovat model k určité známé úloze, nebo jak zavést do modelu nové znalosti prostřednictvím učení v kontextu.Dále ukazujeme, že soft prompting může být také použit k modifikaci geometrie prostoru embeddingů tak, aby vzdálenosti mezi embeddingy měly sémantický význam pro cílovou úlohu, obdobně jako je běžně dosaženo pomocí kontrastního jemného ladění.Tuto vlastnost využíváme k řešení nedostatku dat pro úlohu detekce rétorických otázek sloučením několika datasetů do společného sémantického embeddingového prostoru.Nakonec ukazujeme na standardním datasetu Switchboard, že výsledný model založený na BERT téměř zdvojnásobuje přesnost ve srovnání s Flan-T5-XXL při použití pouze pěti málo označených vzorků, díky tomuto společnému embeddingovému prostoru. V našich experimentech jsme zvolili model BERT, protože již bylo ukázáno s S-BERT, že kontrastní jemné ladění BERT vede k sémanticky smysluplným reprezentacím. Ukazujeme tedy také, že tato vlastnost BERT se dobře přenáší do paradigmatu soft promptingu.Nakonec provádíme kvalitativní analýzu výsledného embeddingového prostoru a navrhujeme několik heuristických kritérií pro výběr vhodných souvisejících úloh pro zahrnutí do sady tréninkových datasetů.cz
dc.format26
dc.identifier.document-number001621681300002
dc.identifier.doi10.31577/cai_2025_3_523
dc.identifier.issn1335-9150
dc.identifier.obd43947643
dc.identifier.orcidBaloun, Josef 0000-0003-1923-5355
dc.identifier.orcidMartínek, Jiří 0000-0003-2981-1723
dc.identifier.orcidKrál, Pavel 0000-0002-3096-675X
dc.identifier.urihttp://hdl.handle.net/11025/67483
dc.language.isoen
dc.project.IDSGS-2025-022
dc.relation.ispartofseriesCOMPUTING AND INFORMATICS
dc.rights.accessA
dc.subjectsoft promptsen
dc.subjectprompt-tuningen
dc.subjectrhetorical questionsen
dc.subjectcontrastive learningen
dc.subjecttriplet lossen
dc.subjectpre-trained language modelsen
dc.subjectsoft promptcz
dc.subjectladění promptucz
dc.subjectrétorické otázkycz
dc.subjectkontrastní učenícz
dc.subjecttriplet losscz
dc.subjectpředtrénované jazykové modely soft promptcz
dc.subjectladění promptucz
dc.subjectrétorické otázkycz
dc.subjectkontrastní učenícz
dc.subjecttriplet losscz
dc.subjectpředtrénované jazykové modelycz
dc.titleAbilities of Contrastive Soft Prompting for Open Domain Rhetorical Question Detectionen
dc.titleSchopnosti kontrastního soft promptingu pro detekci rétorických otázek v otevřeném doménovém prostředícz
dc.typeČlánek v databázi WoS (Jimp)
dc.typeČLÁNEK
dc.type.statusPublished Version
local.files.count1*
local.files.size2610139*
local.has.filesyes*
local.identifier.eid2-s2.0-105022496658

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
7269.pdf
Size:
2.49 MB
Format:
Adobe Portable Document Format
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description:

Collections