Ověření schopností LLM generovat použitelné testy software

Abstract

Tato bakalářská práce zkoumá schopnosti různých velkých jazykových modelů (LLM) generovat automatizované testy pro webové aplikace. Práce navazuje na před- chozí výzkum v oblasti generování testů a rozšiřuje ho o systematické porovnání sedmi modelů od předních poskytovatelů (Google, OpenAI, Anthropic a Mistral AI). Experimentálně jsem implementoval systém pro automatizované generování, spouš- tění a vyhodnocování testů v prostředí Robot Framework včetně schopnosti auto- matické opravy chybných testů a měření pokrytí kódu. Na základě experimentů s testováním webové aplikace TbUIS jsou analyzovány schopnosti jednotlivých mo- delů z hlediska úspěšnosti generovaných testů, jejich schopnosti detekovat chyby, časové náročnosti generování, schopnosti automatických oprav a pokrytí kódu. Výsledky ukazují výrazné rozdíly mezi modely, přičemž nejvyšší úspěšnost dosáhl Claude 3.7 Sonnet (91,7%), následovaný modely Gemini Pro 2.5 (79,2%) a Claude 3 Opus (75,0%). Práce přináší empiricky podložená doporučení pro využití různých LLM v procesu testování softwaru.

Description

Subject(s)

Robot Framework, velký jazykový model, generování testů, automatizované testování

Citation