Automatic topic identification for large scale language modeling data filtering
| dc.contributor.author | Skorkovská, Lucie | |
| dc.contributor.author | Ircing, Pavel | |
| dc.contributor.author | Pražák, Aleš | |
| dc.contributor.author | Lehečka, Jan | |
| dc.date.accessioned | 2015-12-14T08:12:04Z | |
| dc.date.available | 2015-12-14T08:12:04Z | |
| dc.date.issued | 2011 | |
| dc.description.abstract | Tento článek představuje modul pro identifikaci tématu, který je součástí komplexního systému pro získávání, zpracování a ukládání velkého množství textových dat z webových stránek. Modul zpracovává získaná data a přiřazuje jim klíčová slova z hierarchie témat, která byla vytvořena pro tyto účely. Kvalita identifikace tématu je vyhodnocena dvěma způsoby - za použití klasických měr přesnosti a úplnosti, ale také nepřímo, měřením úspěšnosti ASR systému s použitím tématicky orientovaných jazykových modelů vytvořených z takto automaticky filtrovaných dat. | cs |
| dc.description.abstract-translated | The paper presents a module for topic identification that is embedded into a complex system for acquisition and storing large volumes of text data from the Web. The module processes each of the acquired data items and assigns keywords to them from a defined topic hierarchy that was developed for this purposes and is also described in the paper. The quality of the topic identification is evaluated in two ways - using classic precision-recall measures and also indirectly, by measuring the ASR performance of the topic-specific language models that are built using the automatically filtered data. | en |
| dc.format | 8 s. | cs |
| dc.format.mimetype | application/pdf | |
| dc.identifier.citation | SKORKOVSKÁ, Lucie; IRCING, Pavel; PRAŽÁK, Aleš; LEHEČKA, Jan. Automatic topic identification for large scale language modeling data filtering. In:Text, speech and dialogue. Berlin: Springer, 2011, p. 64-71. (Lecture notes in computer science; 6836). ISBN 978-3-642-23537-5. | en |
| dc.identifier.isbn | 978-3-642-23537-5 | |
| dc.identifier.uri | http://www.kky.zcu.cz/cs/publications/SkorkovskaL_2011_AutomaticTopic | |
| dc.identifier.uri | http://hdl.handle.net/11025/16984 | |
| dc.language.iso | en | en |
| dc.publisher | Springer | en |
| dc.relation.ispartofseries | Lecture notes in computer science; 6836 | en |
| dc.rights | © Lucie Skorkovská - Pavel Ircing - Aleš Pražák - Jan Lehečka | cs |
| dc.rights.access | openAccess | en |
| dc.subject | identifikace tématu | cs |
| dc.subject | jazykové modelování | cs |
| dc.subject | automatické rozpoznávání řeči | cs |
| dc.subject.translated | topic identification | en |
| dc.subject.translated | language modelling | en |
| dc.subject.translated | automatic speech recognition | en |
| dc.title | Automatic topic identification for large scale language modeling data filtering | en |
| dc.title.alternative | Automatická identifikace tématu pro filtraci velkého množství dat pro jazykové modelování | cs |
| dc.type | článek | cs |
| dc.type | article | en |
| dc.type.status | Peer-reviewed | en |
| dc.type.version | publishedVersion | en |
Files
Original bundle
1 - 1 out of 1 results
No Thumbnail Available
- Name:
- SkorkovskaL_2011_AutomaticTopic.pdf
- Size:
- 172.9 KB
- Format:
- Adobe Portable Document Format
- Description:
- Plný text
License bundle
1 - 1 out of 1 results
No Thumbnail Available
- Name:
- license.txt
- Size:
- 1.71 KB
- Format:
- Item-specific license agreed upon to submission
- Description: