Automatic lemmatizer construction with focus on OOV words lemmatization
Date issued
2005
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Springer
Abstract
Tento článek se zabývá automatickou konstrukcí lematizátoru z Plný tvar - Lema trénovacího slovníku a lematizací nových, v trénovacím slovníku neviděných, tj. OOV slov. Jsou představeny tři metody pro lematizaci tří různých typů OOV slov (chybějící plné tvary, složená a neznámá slova). Tyto metody byly testovány pro češtinu a nejlepší výsledek dosažený jejich kombinací je precision: 99.3 % a recall: 75.1 %. Dále je také představen bezslovníkový lematizátor založený na metodě pro lematizaci neznámých slov (lematizace pomocí vzorů).
Description
Subject(s)
lemmatizace, OOV slova
Citation
KANIS, Jakub; MÜLLER, Luděk. Automatic lemmatizer construction with focus on OOV words lemmatization. In: Text, speech and dialogue. Berlin: Springer, 2005, p. 132-139. (Lectures notes in computer science; 3658). ISBN 978-3-540-28789-6.