Vícejazyčné vyhledávání v textových dokumentech

Abstract

Tato bakalářská práce zkoumá potenciál pro zlepšení vícejazyčného vyhledávání informací (CLIR) v rámci portálu Porta fontium, který poskytuje přístup k historickým materiálům z Česko-Bavorského pohraničí. Je tedy důležité umožnit vyhledávání v českých i německých dokumentech zároveň. Práce nejprve poskytuje přehled metod CLIR, zahrnující jak tradiční, tak moderní přístupy. Tato analýza zdůrazňuje silné a slabé stránky každé metody, čímž připravuje cestu pro návrh řešení. Poté studie zkoumá dostupné CLIR datasety a hodnotící metriky. Následně jsou provedeny experimenty pro vyhodnocení výkonnosti vybraných CLIR metod s využitím identifikovaných datasetů a metrik. Tato analýza směřuje k vývoji softwarového modulu CLIR, který bude možné použít v systému Porta fontium.

Description

Subject(s)

clir, nlp, bert model, slovní vektory

Citation

OPEN License Selector