Czert – Czech BERT-like Model for Language Representation

Abstract

Tento článek popisuje proces trénování prvních českých monolinguálních modelů pro reprezentaci jazyka založených na architekturách BERT a ALBERT. Naše modely trénujeme na více než 340 tisících vět, což je 50krát více než u vícejazyčných modelů, které obsahují česká data. Vícejazyčné modely překonáváme na 9 z 11 datových sad. Kromě toho jsme na devíti datasetech dosáhli nových state-of-the-art výsledků. Na závěr porovnáváme výsledky jednojazyčných a vícejazyčných modelů. Všechny předtrénované modely jsou volně dostupné pro další výzkum.

Description

Subject(s)

BERT, jazykový mode, předtrénovaný model, český jazyk

Citation

SIDO, J. PRAŽÁK, O. PŘIBÁŇ, P. PAŠEK, J. SEJÁK, M. KONOPÍK, M. Czert – Czech BERT-like Model for Language Representation. In Deep Learning for Natural Language Processing Methods and Applications. Shoumen: INCOMA, Ltd., 2021. s. 1326-1338. ISBN: 978-954-452-072-4 , ISSN: 1313-8502
OPEN License Selector