Automatic topic identification for large scale language modeling data filtering

Date issued

2011

Journal Title

Journal ISSN

Volume Title

Publisher

Springer

Abstract

Tento článek představuje modul pro identifikaci tématu, který je součástí komplexního systému pro získávání, zpracování a ukládání velkého množství textových dat z webových stránek. Modul zpracovává získaná data a přiřazuje jim klíčová slova z hierarchie témat, která byla vytvořena pro tyto účely. Kvalita identifikace tématu je vyhodnocena dvěma způsoby - za použití klasických měr přesnosti a úplnosti, ale také nepřímo, měřením úspěšnosti ASR systému s použitím tématicky orientovaných jazykových modelů vytvořených z takto automaticky filtrovaných dat.

Description

Subject(s)

identifikace tématu, jazykové modelování, automatické rozpoznávání řeči

Citation

SKORKOVSKÁ, Lucie; IRCING, Pavel; PRAŽÁK, Aleš; LEHEČKA, Jan. Automatic topic identification for large scale language modeling data filtering. In:Text, speech and dialogue. Berlin: Springer, 2011, p. 64-71. (Lecture notes in computer science; 6836). ISBN 978-3-642-23537-5.