Abilities of Contrastive Soft Prompting for Open Domain Rhetorical Question Detection
Files
Date issued
2025
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
In this work, we start by demonstrating experimentally thatrhetorical question detection is still a challenging task, even for state-of-the-art Large Language Models (LLMs).We then propose an approach that boosts the performances of such LLMs by training a soft prompt in a waythat enables building a joint embedding space from multiple loosely related corpora.The advantages of using a soft-prompt compared to finetuning is to limit the training costs and combat overfittingand forgetting. Soft prompting is often viewed as a way to guide the model towards a specific known task, or tointroduce new knowledge into the model through in-context learning.We further show that soft prompting may also be used to modify the geometry of the embedding space, so thatthe distance between embeddings becomes semantically relevant for a target task, similarly to what is commonlyachieved with contrastive finetuning.We exploit this property to combat data scarcity for the task of rhetorical question detection bymerging several datasets into a joint semantic embedding space.We finally show on the standard Switchboard dataset that the resulting BERT-based model nearly divides by 2the number of errors as compared to Flan-T5-XXL with only 5 few-shot labeled samples, thanks to this jointembedding space. We have chosen in our experiments a BERT model because it has already been shown with S-BERT thatcontrastive finetuning of BERT leads to semantically meaningful representations. Therefore, we also show that thisproperty of BERT nicely transfers to the soft-prompting paradigm.Finally, we qualitatively analyze the resulting embedding space and propose a few heuristic criteria to selectappropriate related tasks for inclusion into the pool of training datasets.
V této práci nejprve experimentálně ukazujeme, že detekce rétorických otázek je stále náročný úkol, a to i pro nejmodernější velké jazykové modely (LLM).Dále navrhujeme přístup, který zlepšuje výkonnost těchto LLM prostřednictvím trénování „soft promptu“ způsobem, který umožňuje vytváření společného prostoru vektorových reprezentací z několika volně souvisejících korpusů.Výhodou použití soft promptu oproti jemnému ladění (finetuningu) je omezení nákladů na trénink a snížení rizika přeučení a zapomínání. Soft prompting je často vnímán jako způsob, jak nasměrovat model k určité známé úloze, nebo jak zavést do modelu nové znalosti prostřednictvím učení v kontextu.Dále ukazujeme, že soft prompting může být také použit k modifikaci geometrie prostoru embeddingů tak, aby vzdálenosti mezi embeddingy měly sémantický význam pro cílovou úlohu, obdobně jako je běžně dosaženo pomocí kontrastního jemného ladění.Tuto vlastnost využíváme k řešení nedostatku dat pro úlohu detekce rétorických otázek sloučením několika datasetů do společného sémantického embeddingového prostoru.Nakonec ukazujeme na standardním datasetu Switchboard, že výsledný model založený na BERT téměř zdvojnásobuje přesnost ve srovnání s Flan-T5-XXL při použití pouze pěti málo označených vzorků, díky tomuto společnému embeddingovému prostoru. V našich experimentech jsme zvolili model BERT, protože již bylo ukázáno s S-BERT, že kontrastní jemné ladění BERT vede k sémanticky smysluplným reprezentacím. Ukazujeme tedy také, že tato vlastnost BERT se dobře přenáší do paradigmatu soft promptingu.Nakonec provádíme kvalitativní analýzu výsledného embeddingového prostoru a navrhujeme několik heuristických kritérií pro výběr vhodných souvisejících úloh pro zahrnutí do sady tréninkových datasetů.
V této práci nejprve experimentálně ukazujeme, že detekce rétorických otázek je stále náročný úkol, a to i pro nejmodernější velké jazykové modely (LLM).Dále navrhujeme přístup, který zlepšuje výkonnost těchto LLM prostřednictvím trénování „soft promptu“ způsobem, který umožňuje vytváření společného prostoru vektorových reprezentací z několika volně souvisejících korpusů.Výhodou použití soft promptu oproti jemnému ladění (finetuningu) je omezení nákladů na trénink a snížení rizika přeučení a zapomínání. Soft prompting je často vnímán jako způsob, jak nasměrovat model k určité známé úloze, nebo jak zavést do modelu nové znalosti prostřednictvím učení v kontextu.Dále ukazujeme, že soft prompting může být také použit k modifikaci geometrie prostoru embeddingů tak, aby vzdálenosti mezi embeddingy měly sémantický význam pro cílovou úlohu, obdobně jako je běžně dosaženo pomocí kontrastního jemného ladění.Tuto vlastnost využíváme k řešení nedostatku dat pro úlohu detekce rétorických otázek sloučením několika datasetů do společného sémantického embeddingového prostoru.Nakonec ukazujeme na standardním datasetu Switchboard, že výsledný model založený na BERT téměř zdvojnásobuje přesnost ve srovnání s Flan-T5-XXL při použití pouze pěti málo označených vzorků, díky tomuto společnému embeddingovému prostoru. V našich experimentech jsme zvolili model BERT, protože již bylo ukázáno s S-BERT, že kontrastní jemné ladění BERT vede k sémanticky smysluplným reprezentacím. Ukazujeme tedy také, že tato vlastnost BERT se dobře přenáší do paradigmatu soft promptingu.Nakonec provádíme kvalitativní analýzu výsledného embeddingového prostoru a navrhujeme několik heuristických kritérií pro výběr vhodných souvisejících úloh pro zahrnutí do sady tréninkových datasetů.
Description
Subject(s)
soft prompts, prompt-tuning, rhetorical questions, contrastive learning, triplet loss, pre-trained language models, soft prompt, ladění promptu, rétorické otázky, kontrastní učení, triplet loss, předtrénované jazykové modely soft prompt, ladění promptu, rétorické otázky, kontrastní učení, triplet loss, předtrénované jazykové modely