Automatic topic identification for large scale language modeling data filtering
Date issued
2011
Journal Title
Journal ISSN
Volume Title
Publisher
Springer
Abstract
Tento článek představuje modul pro identifikaci tématu, který je součástí komplexního systému pro získávání, zpracování a ukládání velkého množství textových dat z webových stránek. Modul zpracovává získaná data a přiřazuje jim klíčová slova z hierarchie témat, která byla vytvořena pro tyto účely. Kvalita identifikace tématu je vyhodnocena dvěma způsoby - za použití klasických měr přesnosti a úplnosti, ale také nepřímo, měřením úspěšnosti ASR systému s použitím tématicky orientovaných jazykových modelů vytvořených z takto automaticky filtrovaných dat.
Description
Subject(s)
identifikace tématu, jazykové modelování, automatické rozpoznávání řeči
Citation
SKORKOVSKÁ, Lucie; IRCING, Pavel; PRAŽÁK, Aleš; LEHEČKA, Jan. Automatic topic identification for large scale language modeling data filtering. In:Text, speech and dialogue. Berlin: Springer, 2011, p. 64-71. (Lecture notes in computer science; 6836). ISBN 978-3-642-23537-5.