Efektivní adaptace velkých jazykových modelů na české úlohy

Abstract

Tato diplomová práce zkoumá adaptaci velkých jazykových modelů na úlohách zpracování přirozeného jazyka v češtině. Pozornost je věnována praktické použitelnosti velkých jazykových modelů pro vybrané české úlohy a na přístupy k efektivní adaptaci těchto modelů. Zkoumané úlohy zahrnují klasifikaci sentimentu na datasetu filmových recenzí ČSFD, sumarizaci na datasetu SumeCzech a rozpoznávání koreferencí na CorefUD 1.1. Hlavním přístupem je fine-tuning předtrénovaných open-source LLM pomocí text-to-text přístupu. Konkrétně jsou využity modely Mistral-7B, Llama-3 a Gemma 3, za pomocí Parameter-Efficient Fine-Tuning technik Low-Rank Adaptation a přístupů založených na promptingu. Klíčový příspěvek spočívá v demonstraci efektivního trénování na hardware s omezenými zdroji pomocíQuantizedLowRankAdaptation. Experimentální výsledky dosahují nejlepších výsledků na jedné z úloh a slibného výkonu ve všech ostatních úlohách.

Description

Subject(s)

Natural Language Processing, Sentiment Classification, Summarization, Coreference Resolution, Deep Learning, Parameter Efficient Fine-Tuning, Prompting, Large Language Models, Transformers, LoRA, QLoRA

Citation

Collections