Czech medical coding assistant based on transformer networks

dc.contributor.authorLenc, Ladislav
dc.contributor.authorMartínek, Jiří
dc.contributor.authorBaloun, Josef
dc.contributor.authorPřibáň, Pavel
dc.contributor.authorPrantl, Martin
dc.contributor.authorTaylor, Stephen
dc.contributor.authorKrál, Pavel
dc.contributor.authorKyliš, Jiří
dc.date.accessioned2026-03-23T19:05:43Z
dc.date.available2026-03-23T19:05:43Z
dc.date.issued2024
dc.date.updated2026-03-23T19:05:43Z
dc.description.abstractClinical coding of medical reports is currently carried out manually by a so-called clinical coder. However, due to the human factor, this process is error-prone and expensive. The coder needs to be properly trained and spends significant effort on each report, leading to occasional mistakes. The main goal of this paper is to propose and implement a system that serves as an assistant to the coder and automatically predicts diagnosis codes. These predictions are then presented to the coder for approval or correction, aiming to enhance efficiency and accuracy. The main contribution lies in the proposal and evaluation of ICD classification models for the Czech language with relatively few training parameters, allowing swift utilisation on the prevalent computer systems within Czech hospitals and enabling easy retraining or fine-tuning with newly available data. First, we introduce a small transformer-based model for each task followed by the design of a transformer-based “Four-headed” model incorporating four distinct classification heads. This model achieves comparable, sometimes even better results, against four individual models. Moreover this novel model significantly economises memory usage and learning time. We also show that our models achieve comparable results against state-of-the-art English models on the Mimic IV dataset even though our models are significantly smaller.en
dc.description.abstractKlinické kódování zdravotnické dokumentace je v současné době prováděno manuálně speciálně proškolenými klinickými kodéry. Kvůli lidskému faktoru je tento proces drahý a také náchylný k chybám. Kodér stráví významné množství času zpracováním každé zprávy, což může vést k chybám. Hlavním cílem tohoto článku je návrh a implementace systému pro automatické kódování diagnóz, který bude sloužit jako asistent kodéra. Predikce asistenta budou prezentovány kodérovi, který je buď přijme nebo upraví. Asistent by měl urychlit a zároveň i zpřesnit proces kódování. Hlavní přínos spočívá v návrhu a vyhodnocení modelů pro klasifikaci diagnóz v češtině podle MKN. Soustřeďujeme se na modely s relativně menším počtem parametrů, což by mělo umožnit nasazení na hardwaru běžně užívaném v českých nemocnicích a také rychlé přetrénování nebo dotrénování modelů s nově dostupnými daty. Nejprve je představen model založený na architektuře transformer a natrénovaný pro každou ze čtyř řešených klasifikačních úloh. Následuje tzv. čtyřhlavý model, který je trénován pro všechny úlohy zároveň. Tento model dosahuje srovnatelných nebo i lepších výsledků než čtyři samostatně použité modely. Použití jednoho modelu snižuje výpočetní čas potřebný pro trénování a nároky na hardware, kde bude model nasazen. V práci je rovněž provedeno vyhodnocení na anglické databázi MIMIC IV a je ukázáno, že použité modely dosahují podobných výsledků jako modely aktuálně používané pro klasifikaci diagnóz v angličtině.cz
dc.format11
dc.identifier.doi10.1016/j.compbiomed.2024.108672
dc.identifier.issn0010-4825
dc.identifier.obd43943248
dc.identifier.orcidLenc, Ladislav 0000-0002-1066-7269
dc.identifier.orcidMartínek, Jiří 0000-0003-2981-1723
dc.identifier.orcidBaloun, Josef 0000-0003-1923-5355
dc.identifier.orcidPřibáň, Pavel 0000-0002-8744-8726
dc.identifier.orcidPrantl, Martin 0000-0002-7900-5028
dc.identifier.orcidTaylor, Stephen 0000-0001-6702-7900
dc.identifier.orcidKrál, Pavel 0000-0002-3096-675X
dc.identifier.urihttp://hdl.handle.net/11025/67342
dc.language.isoen
dc.project.IDSGS-2022-016
dc.relation.ispartofseriesCOMPUTERS IN BIOLOGY AND MEDICINE
dc.rights.accessC
dc.subjectICDen
dc.subjectmedicalen
dc.subjectcodingen
dc.subjectdiagnosis codingen
dc.subjecttext classificationen
dc.subjectMKNcz
dc.subjectklinické kódovánícz
dc.subjectkódování diagnózcz
dc.subjectklasifikace textucz
dc.titleCzech medical coding assistant based on transformer networksen
dc.titleČeský asistent pro klinické kódování založený na neuronových sítích typu transformercz
dc.typeČlánek v databázi Scopus (Jsc)
dc.typeČLÁNEK
dc.type.statusPublished Version
local.files.count1*
local.files.size1865413*
local.has.filesyes*
local.identifier.eid2-s2.0-85195664526

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
1-s2.0-S0010482524007571-main.pdf
Size:
1.78 MB
Format:
Adobe Portable Document Format
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description:

Collections