Multi-modální rozpoznávání historických pojmenovaných entit

Abstract

Tato diplomová práce se zabývá multimodálním rozpoznáváním pojmenovaných entit. Práce vysvětluje problematiku v této oblasti, časté problémy spojené při zpracování přirozeného jazyka a také důvody, proč se touto úlohou zabývat. Dále představuje tři datové sady z této domény, dvě veřejně dostupné a jednu vlastnoručně vytvořenou. První dvě zmíněné sady vznikly kolekcí tweetů ze sociální sítě Twitter, třetí datová sada byla vytvořena ze souboru pěti knih o historii českoněmeckého území. Většina výzkumu v této oblasti se soustředila výlučně na textovou modalitu. Multimodální rozpoznávání nabývá v poslední době na popularitě, zejména díky velkému objemu dat a jejich dostupnosti. Cílem této práce je zjistit, zda multimodální přístup rozpoznávání pojmenovaných entit přinese lepší výsledky než jejich unimodální zpracování. Jsou navrženy tři unikátní architektury neuronových sítí, které používají specializované moduly na zpracování textu a obrázků. Během této práce vzniklo celkem 23 unikátních topologií, které používají zejména rekurentní neuronové sítě a transformer architekturu. Použity byly také Velké jazykové modely, konkrétně GPT-4o a Llama 3.1. Experimenty prokázaly, že multimodální zpracování v některých případech pomůže zvýšit úspěšnost rozpoznávání

Description

Subject(s)

zpracování přirozeného jazyka, rozpoznávání pojmenovaných entit, BERT, Llama 3.1, ViT, multi-modální rozpoznávání pojmenovaných entit, python

Citation

Collections