Transfer Learning for Czech Historical Named Entity Recognition

dc.contributor.authorHubková, Helena
dc.contributor.authorKrál, Pavel
dc.date.accessioned2022-03-21T11:00:18Z
dc.date.available2022-03-21T11:00:18Z
dc.date.issued2021
dc.description.abstractV dnešní době dosáhlo rozpoznávání pojmenovaných entit (NER) vynikajících výsledků na standardních korpusech. Objevují se však velké problémy při jejich použití ve specifické doméně, protože rozpoznávání vyžaduje vhodný anotovaný korpus. To je patrné zejména v oblasti zpracování historických dokumentů. Hlavním cílem tohoto příspěvku je navrhnout a srovnat několik metod přenosu učení (transfer learning) ke zvýšení skóre českého historického NER. Studujeme několik informačních zdrojů a pro rozpoznávání používáme dvě neuronové sítě. Pro vyhodnocení metod využíváme dva korpusy: českých pojmenovaných entit a českých historických pojmenovaných entit. Ukazujeme, že BERT reprezentace s doladěním a jednoduchým klasifikátorem natrénovaným na spojených korpusech dosahuje vynikajících výsledků.cs
dc.description.abstract-translatedNowadays, named entity recognition (NER) achieved excellent results on the standard corpora. However, big issues are emerging with a need for an application in a specific domain, because it requires a suitable annotated corpus with adapted NE tag-set. This is particularly evident in the historical document processing field. The main goal of this paper consists of proposing and evaluation of several transfer learning methods to increase the score of the Czech historical NER. We study several information sources, and we use two neural nets for NE modeling and recognition. We employ two corpora for evaluation of our transfer learning methods, namely Czech named entity corpus and Czech historical named entity corpus. We show that BERT representation with fine-tuning and only the simple classifier trained on the union of corpora achieves excellent results.en
dc.format7 s.cs
dc.format.mimetypeapplication/pdf
dc.identifier.citationHUBKOVÁ, H. KRÁL, P. Transfer Learning for Czech Historical Named Entity Recognition. In Deep Learning for Natural Language Processing Methods and Applications. Shoumen: INCOMA, Ltd., 2021. s. 576-582. ISBN: 978-954-452-072-4 , ISSN: 1313-8502cs
dc.identifier.doi10.26615/978-954-452-072-4_065
dc.identifier.isbn978-954-452-072-4
dc.identifier.issn1313-8502
dc.identifier.obd43934746
dc.identifier.uri2-s2.0-85123641735
dc.identifier.urihttp://hdl.handle.net/11025/47196
dc.language.isoenen
dc.project.IDEF17_048/0007267/InteCom: VaV inteligentních komponent pokročilých technologií pro plzeňskou metropolitní oblastcs
dc.project.IDSGS-2019-018/Zpracování heterogenních dat a jejich specializované aplikacecs
dc.publisherINCOMA, Ltd.en
dc.relation.ispartofseriesDeep Learning for Natural Language Processing Methods and Applicationsen
dc.rights© Incoma Ltd.en
dc.rights.accessopenAccessen
dc.subjectBERTcs
dc.subjectčeštinacs
dc.subjecthistorickýcs
dc.subjectrozpoznávání pojmenovaných entitcs
dc.subjectNERcs
dc.subjectneuronové sítěcs
dc.subjectpřenos učenícs
dc.subject.translatedBERTen
dc.subject.translatedCzechen
dc.subject.translatedhistoricalen
dc.subject.translatednamed entity recognitionen
dc.subject.translatedNERen
dc.subject.translatedneural networksen
dc.subject.translatedtransfer learningen
dc.titleTransfer Learning for Czech Historical Named Entity Recognitionen
dc.title.alternativePřenos učení pro rozpoznávání českých historických pojmenovaných entitcs
dc.typekonferenční příspěvekcs
dc.typeConferenceObjecten
dc.type.statusPeer-revieweden
dc.type.versionpublishedVersionen

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
2021.ranlp-main.65.pdf
Size:
188.1 KB
Format:
Adobe Portable Document Format