Czert – Czech BERT-like Model for Language Representation

Sido, Jakub

Czert – Czech BERT-like Model for Language Representation

Files

Přibáň-RANLP-2021-czert.pdf (351.92 KB)

Date issued

2021

Authors

Publisher

INCOMA, Ltd.

Abstract

Tento článek popisuje proces trénování prvních českých monolinguálních modelů pro reprezentaci jazyka založených na architekturách BERT a ALBERT. Naše modely trénujeme na více než 340 tisících vět, což je 50krát více než u vícejazyčných modelů, které obsahují česká data. Vícejazyčné modely překonáváme na 9 z 11 datových sad. Kromě toho jsme na devíti datasetech dosáhli nových state-of-the-art výsledků. Na závěr porovnáváme výsledky jednojazyčných a vícejazyčných modelů. Všechny předtrénované modely jsou volně dostupné pro další výzkum.

Subject(s)

BERT, jazykový mode, předtrénovaný model, český jazyk

Citation

SIDO, J. PRAŽÁK, O. PŘIBÁŇ, P. PAŠEK, J. SEJÁK, M. KONOPÍK, M. Czert – Czech BERT-like Model for Language Representation. In Deep Learning for Natural Language Processing Methods and Applications. Shoumen: INCOMA, Ltd., 2021. s. 1326-1338. ISBN: 978-954-452-072-4 , ISSN: 1313-8502

Item identifier

https://doi.org/2-s2.0-85123595825
http://hdl.handle.net/11025/47190
https://doi.org/10.26615/978-954-452-072-4_149

Collections

OBD
Conference Papers (KIV)

Show full item record

Czert – Czech BERT-like Model for Language Representation

Files

Date issued

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Subject(s)

Citation

Item identifier

Collections