Automatické vyhodnocení četnosti výskytu chyb v reálných projektech

Třeštík, Pavel

Automatické vyhodnocení četnosti výskytu chyb v reálných projektech

Files

A23N0001P-zadani_DP.pdf (23 KB)

DP_Trestik_A23N0001P.pdf (1.26 MB)

A23N0001P_prilohy_1.zip (1.16 GB)

A23N0001P_prilohy_2.zip (1.15 GB)

A23N0001P_prilohy_3.zip (1.01 GB)

Date issued

2025-06-19

Authors

Třeštík, Pavel

Publisher

Západočeská univerzita v Plzni

Abstract

Tato diplomová práce se zabývá automatickou klasifikací softwarových zranitelností podle systému Common Weakness Enumeration (CWE). Výsledný klasifikátor může být použit k vyhodnocení četnosti CWE chyb na reálném projektu, nebo třeba přiřazování CWE k nově objeveným Common Vulnerabilities and Exposures (CVE). Nejprve jsou analyzovány dostupné datové zdroje a možné implementační techniky klasifikátoru. Hlavní pozornost je věnována předtrénovaným velkým jazykovým modelům (LLM). Je provedeno několik experimentů ve snaze vyladit kandidáty LLM na klasifikátor CWE. Nejvhodnějším základním modelem byl zvolen CodeT5 od společnosti Salesforce. Na základě provedených experimentů jsou použity dvě vyladěné konfigurace modelu CodeT5 pro použití na reálných datech. Pro zhodnocení modelu jsou použita unikátní data vycházející z datasetu CVEFixes. Následně je model také použit pro získání četností tříd CWE z vybraných GitHub projektů. Výsledný klasifikátor ovšem neprokazuje příliš dobré výsledky, a proto je otázkou, zda jsou LLM vhodnou volbou pro tento typ úlohy a zda by se budoucí práce neměly zaměřit na specializovanější architektury modelů.

Subject(s)

CWE, klasifikace zranitelností, velké jazykové modely, strojové učení

Item identifier

http://hdl.handle.net/11025/64874

Collections

Theses (KIV)

Show full item record

Automatické vyhodnocení četnosti výskytu chyb v reálných projektech

Files

Date issued

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Subject(s)

Citation

Item identifier

Collections