Comparison of different lemmatization approaches through the means of information retrieval performance

Date issued

2010

Journal Title

Journal ISSN

Volume Title

Publisher

Springer

Abstract

Tento článek prezentuje kvantitativní porovnání dvou různých přístupů k lematizaci českého textu. První přístup je založen na použití ručně vytvořeného slovníku lemmat a množiny derivačních pravidel a druhý pak na automatickém odvození slovníku a pravidel z trénovacích dat. Porovnání je provedeno vyhodnocením míry střední zobecněné průměrné přesnosti (angl. mean Generalized Average Precision - mGAP) lematizovaných dokumentů a hledaných dotazů v sérii experimentů zaměřených na vyhledávání informací. Taková to metoda je vhodná pro efektivní a spolehlivé porovnání výkonnosti lematizace, neboť jak bylo prokázáno, správná lematizace je rozhodujícím faktorem při efektivním vyhledávání informací ve vysoce inflektivních jazycích. Navrhované nepřímé porovnání lematizátorů navíc obchází nutnost existence obtížně získatelných ručně lematizovaných testovacích dat a také řeší problém nekompatibilních množin lemmat napříč různými systémy.

Description

Subject(s)

lemmatizace, vyhledávání informací

Citation

KANIS, Jakub; SKORKOVSKÁ, Lucie. Comparison of different lemmatization approaches through the means of information retrieval performance. In: Text, speech and dialogue. Berlin: Springer, 2010, p. 93-100. (Lectures notes in computer science; 6231). ISBN 978-3-642-15759-2.
OPEN License Selector