Is it Possible to Re-educate RoBERTa? Expert-driven Machine Learning for Punctuation Correction.

dc.contributor.authorMachura, Jakub
dc.contributor.authorHana, Žižková
dc.contributor.authorFrémund, Adam
dc.contributor.authorŠvec, Jan
dc.date.accessioned2025-06-20T08:48:39Z
dc.date.available2025-06-20T08:48:39Z
dc.date.issued2023
dc.date.updated2025-06-20T08:48:39Z
dc.description.abstractAlthough Czech rule-based tools for automatic punctuation insertion rely on extensive grammar and achieve respectable precision, the pre-trained Transformers outperform rule-based systems in precision and recall (Machura et al. 2022). The Czech pre-trained RoBERTa model achieves excellent results, yet a certain level of phenomena is ignored, and the model partially makes errors. This paper aims to investigate whether it ispossible to retrain the RoBERTa language model to increase the number of sentence commas the model correctly detects. We have chosen a very specific and narrow type of sentence comma, namely the sentence comma delimiting vocative phrases, which is clearly defined in the grammar and is very often omitted by writers. The chosen approaches were further tested and evaluated on different types of texts.en
dc.description.abstractPřestože české nástroje pro automatické vkládání interpunkce založené na pravidlech se opírají o rozsáhlou gramatiku a dosahují úctyhodné přesnosti, předtrénované transformátory překonávají systémy založené na pravidlech v přesnosti a odvolání (Machura et al. 2022). Český předtrénovaný model RoBERTa dosahuje výborných výsledků, přesto je určitá úroveň jevů ignorována a model se částečně dopouští chyb. Cílem tohoto článku je prozkoumat, zda je možné přetrénovat jazykový model RoBERTa tak, aby se zvýšil počet vět s čárkami, které model správně detekuje. Vybrali jsme si velmi specifický a úzký typ čárky ve větě, a to čárku ve větě ohraničující vokativní fráze, která je v gramatice jasně definována a je pisateli velmi často opomíjena. Zvolené přístupy jsme dále testovali a vyhodnocovali na různých typech textů.cz
dc.format12
dc.identifier.doi10.2478/jazcas-2023-0052
dc.identifier.issn0021-5597
dc.identifier.obd43940897
dc.identifier.orcidFrémund, Adam 0000-0001-8780-6629
dc.identifier.orcidŠvec, Jan 0000-0001-8362-5927
dc.identifier.urihttp://hdl.handle.net/11025/61224
dc.language.isoen
dc.project.IDGA22-27800S
dc.relation.ispartofseriesJournal of Linguistics
dc.rights.accessA
dc.subjectcommaen
dc.subjectCzechen
dc.subjectvocativeen
dc.subjectmachine learningen
dc.subjectRoBERTaen
dc.subjectčárkacz
dc.subjectčeštinacz
dc.subjectvokativcz
dc.subjectstrojové učenícz
dc.subjectRoBERTacz
dc.titleIs it Possible to Re-educate RoBERTa? Expert-driven Machine Learning for Punctuation Correction.en
dc.titleJe možné přeučit RoBERTa? Expertně řízené strojové učení pro opravu interpunkce.cz
dc.typeČlánek v databázi Scopus (Jsc)
dc.typeČLÁNEK
dc.type.statusPublished Version
local.files.count1*
local.files.size1859095*
local.has.filesyes*
local.identifier.eid2-s2.0-85181757325

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
Is-it-Possible-to-ReEducate-Roberta-ExpertDriven-Machine-Learning-for-Punctuation-Correction.pdf
Size:
1.77 MB
Format:
Adobe Portable Document Format
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description:

Collections