Multi-modální rozpoznávání historických pojmenovaných entit
| dc.contributor.advisor | Král Pavel, prof. Ing. Ph.D. | cs |
| dc.contributor.author | Trefil, Jiří | cs |
| dc.contributor.referee | Lenc Ladislav, Ing. Ph.D. | cs |
| dc.date.accepted | 2025-06-16 | |
| dc.date.accessioned | 2026-02-20T16:03:45Z | |
| dc.date.available | 2024-09-09 | |
| dc.date.available | 2026-02-20T16:03:45Z | |
| dc.date.issued | 2025-05-14 | |
| dc.date.submitted | 2025-05-14 | |
| dc.description.abstract | Tato diplomová práce se zabývá multimodálním rozpoznáváním pojmenovaných entit. Práce vysvětluje problematiku v této oblasti, časté problémy spojené při zpracování přirozeného jazyka a také důvody, proč se touto úlohou zabývat. Dále představuje tři datové sady z této domény, dvě veřejně dostupné a jednu vlastnoručně vytvořenou. První dvě zmíněné sady vznikly kolekcí tweetů ze sociální sítě Twitter, třetí datová sada byla vytvořena ze souboru pěti knih o historii českoněmeckého území. Většina výzkumu v této oblasti se soustředila výlučně na textovou modalitu. Multimodální rozpoznávání nabývá v poslední době na popularitě, zejména díky velkému objemu dat a jejich dostupnosti. Cílem této práce je zjistit, zda multimodální přístup rozpoznávání pojmenovaných entit přinese lepší výsledky než jejich unimodální zpracování. Jsou navrženy tři unikátní architektury neuronových sítí, které používají specializované moduly na zpracování textu a obrázků. Během této práce vzniklo celkem 23 unikátních topologií, které používají zejména rekurentní neuronové sítě a transformer architekturu. Použity byly také Velké jazykové modely, konkrétně GPT-4o a Llama 3.1. Experimenty prokázaly, že multimodální zpracování v některých případech pomůže zvýšit úspěšnost rozpoznávání | cs |
| dc.description.abstract-translated | This thesis focuses on multimodal named entity recognition (NER). It explains the main issues in this domain, the common problems associated with natural language processing and the motivation behind this task. It also presents three datasets from this research field, two publicly available and one self-created. The first two of the mentioned datasets were created by collecting tweets from the social media network Twitter, while the third dataset was created from a collection of books on the history of the Czech-German territory. Most of the research in this area has focused exclusively on text modality. Multimodal recognition has recently gained popularity due to the large amount of data and its availability. The aim of this work is to determine whether multimodal NER would yield better results than unimodal one. Three unique neural network architectures have been proposed that use specific modules to process text and image data. A total of 23 unique topologies were developed for the experiments, mainly using recurrent neural networks and transformer architecture. Large language models, namely GPT-4o and Llama 3.1 were also used. Experiments have shown that a multimodal processing can in fact improve performance of recognition in some cases. | en |
| dc.description.department | Katedra informatiky a výpočetní techniky | cs |
| dc.description.result | Obhájeno | cs |
| dc.format | 107 | |
| dc.identifier | 99641 | |
| dc.identifier.uri | http://hdl.handle.net/11025/65891 | |
| dc.language.iso | en | |
| dc.publisher | Západočeská univerzita v Plzni | cs |
| dc.rights | Plný text práce je přístupný bez omezení | cs |
| dc.rights.access | openAccess | cs |
| dc.subject | zpracování přirozeného jazyka | cs |
| dc.subject | rozpoznávání pojmenovaných entit | cs |
| dc.subject | BERT | cs |
| dc.subject | Llama 3.1 | cs |
| dc.subject | ViT | cs |
| dc.subject | multi-modální rozpoznávání pojmenovaných entit | cs |
| dc.subject | python | cs |
| dc.subject.translated | natural language processing | en |
| dc.subject.translated | named entity recognition | en |
| dc.subject.translated | BERT | en |
| dc.subject.translated | Llama 3.1 | en |
| dc.subject.translated | ViT | en |
| dc.subject.translated | multimodal named entity recognition | en |
| dc.subject.translated | python | en |
| dc.thesis.degree-grantor | Západočeská univerzita v Plzni. Fakulta aplikovaných věd | cs |
| dc.thesis.degree-level | Navazující | cs |
| dc.thesis.degree-name | Ing. | cs |
| dc.thesis.degree-program | Softwarové a informační systémy | cs |
| dc.title | Multi-modální rozpoznávání historických pojmenovaných entit | cs |
| dc.type | diplomová práce | cs |
| local.files.count | 6 | * |
| local.files.size | 56137503 | * |
| local.has.files | yes | * |
| local.relation.IS | https://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=99641 |
Files
Original bundle
1 - 5 out of 6 results
No Thumbnail Available
- Name:
- A22N0060P-zadani_DP.pdf
- Size:
- 21.91 KB
- Format:
- Adobe Portable Document Format
- Description:
- VŠKP - příloha
No Thumbnail Available
- Name:
- A22N0060P_prilohy.zip
- Size:
- 48.4 MB
- Format:
- ZIP
- Description:
- VŠKP - příloha
No Thumbnail Available
- Name:
- DP_Trefil_A22N0060P.pdf
- Size:
- 4.81 MB
- Format:
- Adobe Portable Document Format
- Description:
- VŠKP
No Thumbnail Available
- Name:
- PO_Trefil_A22N0060P.pdf
- Size:
- 30.13 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek oponenta VŠKP
No Thumbnail Available
- Name:
- PV_Trefil_A22N0060P.pdf
- Size:
- 75.83 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek vedoucího VŠKP