Comparison of different lemmatization approaches through the means of information retrieval performance
Date issued
2010
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Springer
Abstract
Tento článek prezentuje kvantitativní porovnání dvou různých přístupů k lematizaci českého textu. První přístup je založen na použití ručně vytvořeného slovníku lemmat a množiny derivačních pravidel a druhý pak na automatickém odvození slovníku a pravidel z trénovacích dat. Porovnání je provedeno vyhodnocením míry střední zobecněné průměrné přesnosti (angl. mean Generalized Average Precision - mGAP) lematizovaných dokumentů a hledaných dotazů v sérii experimentů zaměřených na vyhledávání informací. Taková to metoda je vhodná pro efektivní a spolehlivé porovnání výkonnosti lematizace, neboť jak bylo prokázáno, správná lematizace je rozhodujícím faktorem při efektivním vyhledávání informací ve vysoce inflektivních jazycích. Navrhované nepřímé porovnání lematizátorů navíc obchází nutnost existence obtížně získatelných ručně lematizovaných testovacích dat a také řeší problém nekompatibilních množin lemmat napříč různými systémy.
Description
Subject(s)
lemmatizace, vyhledávání informací
Citation
KANIS, Jakub; SKORKOVSKÁ, Lucie. Comparison of different lemmatization approaches through the means of information retrieval performance. In: Text, speech and dialogue. Berlin: Springer, 2010, p. 93-100. (Lectures notes in computer science; 6231). ISBN 978-3-642-15759-2.