Automatic lemmatizer construction with focus on OOV words lemmatization

dc.contributor.authorKanis, Jakub
dc.contributor.authorMüller, Luděk
dc.date.accessioned2016-01-06T13:02:41Z
dc.date.available2016-01-06T13:02:41Z
dc.date.issued2005
dc.description.abstractTento článek se zabývá automatickou konstrukcí lematizátoru z Plný tvar - Lema trénovacího slovníku a lematizací nových, v trénovacím slovníku neviděných, tj. OOV slov. Jsou představeny tři metody pro lematizaci tří různých typů OOV slov (chybějící plné tvary, složená a neznámá slova). Tyto metody byly testovány pro češtinu a nejlepší výsledek dosažený jejich kombinací je precision: 99.3 % a recall: 75.1 %. Dále je také představen bezslovníkový lematizátor založený na metodě pro lematizaci neznámých slov (lematizace pomocí vzorů).cs
dc.description.abstract-translatedThis paper deals with the automatic construction of a lemmatizer from a Full Form - Lemma (FFL) training dictionary and with lemmatization of new, in the FFL dictionary unseen, i.e. out-of-vocabulary (OOV) words. Three methods of lemmatization of three kinds of OOV words (missing full forms, unknown words, and compound words) are introduced. These methods were tested on Czech test data. The best result (recall: 99.3 % and precision: 75.1 %) has been achieved by a combination of these methods. The lexicon-free lemmatizer based on the method of lemmatization of unknown words (lemmatization patterns method) is introduced too.en
dc.format8 s.cs
dc.format.mimetypeapplication/pdf
dc.identifier.citationKANIS, Jakub; MÜLLER, Luděk. Automatic lemmatizer construction with focus on OOV words lemmatization. In: Text, speech and dialogue. Berlin: Springer, 2005, p. 132-139. (Lectures notes in computer science; 3658). ISBN 978-3-540-28789-6.en
dc.identifier.isbn978-3-540-28789-6
dc.identifier.urihttp://www.kky.zcu.cz/cs/publications/KanisJ_2005_Automaticlemmatizer
dc.identifier.urihttp://hdl.handle.net/11025/17130
dc.language.isoenen
dc.publisherSpringeren
dc.relation.ispartofseriesLecture notes in computer science; 3658en
dc.rights© Jakub Kanis - Luděk Müllercs
dc.rights.accessopenAccessen
dc.subjectlemmatizacecs
dc.subjectOOV slovacs
dc.subject.translatedlemmatizationen
dc.subject.translatedOOV wordsen
dc.titleAutomatic lemmatizer construction with focus on OOV words lemmatizationen
dc.title.alternativeAutomatická konstrukce lematizátoru se zaměřením na lematizaci OOV slovcs
dc.typečlánekcs
dc.typearticleen
dc.type.statusPeer-revieweden
dc.type.versionpublishedVersionen

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
KanisJ_2005_Automaticlemmatizer.pdf
Size:
94.21 KB
Format:
Adobe Portable Document Format
Description:
Plný text
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: