Automatic lemmatizer construction with focus on OOV words lemmatization

Date issued

2005

Journal Title

Journal ISSN

Volume Title

Publisher

Springer

Abstract

Tento článek se zabývá automatickou konstrukcí lematizátoru z Plný tvar - Lema trénovacího slovníku a lematizací nových, v trénovacím slovníku neviděných, tj. OOV slov. Jsou představeny tři metody pro lematizaci tří různých typů OOV slov (chybějící plné tvary, složená a neznámá slova). Tyto metody byly testovány pro češtinu a nejlepší výsledek dosažený jejich kombinací je precision: 99.3 % a recall: 75.1 %. Dále je také představen bezslovníkový lematizátor založený na metodě pro lematizaci neznámých slov (lematizace pomocí vzorů).

Description

Subject(s)

lemmatizace, OOV slova

Citation

KANIS, Jakub; MÜLLER, Luděk. Automatic lemmatizer construction with focus on OOV words lemmatization. In: Text, speech and dialogue. Berlin: Springer, 2005, p. 132-139. (Lectures notes in computer science; 3658). ISBN 978-3-540-28789-6.