Multi-modální rozpoznávání historických pojmenovaných entit
Date issued
2025-05-14
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Západočeská univerzita v Plzni
Abstract
Tato diplomová práce se zabývá multimodálním rozpoznáváním pojmenovaných
entit. Práce vysvětluje problematiku v této oblasti, časté problémy spojené při zpracování přirozeného jazyka a také důvody, proč se touto úlohou zabývat. Dále představuje tři datové sady z této domény, dvě veřejně dostupné a jednu vlastnoručně
vytvořenou. První dvě zmíněné sady vznikly kolekcí tweetů ze sociální sítě Twitter,
třetí datová sada byla vytvořena ze souboru pěti knih o historii českoněmeckého
území.
Většina výzkumu v této oblasti se soustředila výlučně na textovou modalitu. Multimodální rozpoznávání nabývá v poslední době na popularitě, zejména díky velkému
objemu dat a jejich dostupnosti. Cílem této práce je zjistit, zda multimodální přístup
rozpoznávání pojmenovaných entit přinese lepší výsledky než jejich unimodální
zpracování. Jsou navrženy tři unikátní architektury neuronových sítí, které používají specializované moduly na zpracování textu a obrázků. Během této práce vzniklo
celkem 23 unikátních topologií, které používají zejména rekurentní neuronové sítě
a transformer architekturu. Použity byly také Velké jazykové modely, konkrétně GPT-4o a Llama 3.1.
Experimenty prokázaly, že multimodální zpracování v některých případech pomůže
zvýšit úspěšnost rozpoznávání
Description
Subject(s)
zpracování přirozeného jazyka, rozpoznávání pojmenovaných entit, BERT, Llama 3.1, ViT, multi-modální rozpoznávání pojmenovaných entit, python