Automatické vyhodnocení četnosti výskytu chyb v reálných projektech

dc.contributor.advisorLipka Richard, Ing. Ph.D.cs
dc.contributor.authorTřeštík, Pavelcs
dc.contributor.refereePotužák Tomáš, Ing. Ph.D.cs
dc.date.accepted2025-09-02
dc.date.accessioned2026-02-19T16:00:11Z
dc.date.available2023-09-08
dc.date.available2026-02-19T16:00:11Z
dc.date.issued2025-06-19
dc.date.submitted2025-06-19
dc.description.abstractTato diplomová práce se zabývá automatickou klasifikací softwarových zranitelností podle systému Common Weakness Enumeration (CWE). Výsledný klasifikátor může být použit k vyhodnocení četnosti CWE chyb na reálném projektu, nebo třeba přiřazování CWE k nově objeveným Common Vulnerabilities and Exposures (CVE). Nejprve jsou analyzovány dostupné datové zdroje a možné implementační techniky klasifikátoru. Hlavní pozornost je věnována předtrénovaným velkým jazykovým modelům (LLM). Je provedeno několik experimentů ve snaze vyladit kandidáty LLM na klasifikátor CWE. Nejvhodnějším základním modelem byl zvolen CodeT5 od společnosti Salesforce. Na základě provedených experimentů jsou použity dvě vyladěné konfigurace modelu CodeT5 pro použití na reálných datech. Pro zhodnocení modelu jsou použita unikátní data vycházející z datasetu CVEFixes. Následně je model také použit pro získání četností tříd CWE z vybraných GitHub projektů. Výsledný klasifikátor ovšem neprokazuje příliš dobré výsledky, a proto je otázkou, zda jsou LLM vhodnou volbou pro tento typ úlohy a zda by se budoucí práce neměly zaměřit na specializovanější architektury modelů.cs
dc.description.abstract-translatedThis thesis focuses the automatic classification of software vulnerabilities according to the Common Weakness Enumeration (CWE) system. The resulting classifier can be used to evaluate the frequency of CWE weaknesses in a real project, or for assigning CWE labels to newly discovered Common Vulnerabilities and Exposures (CVE). First, available data sources and possible implementation techniques for the classifier are analyzed. The main focus is on pretrained large language models (LLMs). Several experiments are conducted in an effort to fine-tune LLM candidates for CWE classification. The most suitable base model was determined to be CodeT5 from Salesforce. Based on the conducted experiments, two fine-tuned configurations of the CodeT5 model are used for real data. To evaluate the model, unique data derived from the CVEFixes dataset is used. Subsequently, the model is also used to obtain the frequency of CWE classes from selected GitHub projects. However, the resulting classifier does not show very good results, and it raises the question of whether LLMs are a suitable choice for this type of task, and whether future work should focus on more specialized model architectures.en
dc.description.departmentKatedra informatiky a výpočetní technikycs
dc.description.resultObhájenocs
dc.format73
dc.identifier96765
dc.identifier.urihttp://hdl.handle.net/11025/64874
dc.language.isocs
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezenícs
dc.rights.accessopenAccesscs
dc.subjectCWEcs
dc.subjectklasifikace zranitelnostícs
dc.subjectvelké jazykové modelycs
dc.subjectstrojové učenícs
dc.subject.translatedCWEen
dc.subject.translatedvulnerability classificationen
dc.subject.translatedlarge language modelsen
dc.subject.translatedmachine learningen
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-levelNavazujícícs
dc.thesis.degree-nameIng.cs
dc.thesis.degree-programSoftwarové a informační systémycs
dc.titleAutomatické vyhodnocení četnosti výskytu chyb v reálných projektechcs
dc.title.alternativeAutomatic evaluation of the frequency of software errors in real projectsen
dc.typediplomová prácecs
local.files.count8*
local.files.size3564468481*
local.has.filesyes*
local.relation.IShttps://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=96765

Files

Original bundle
Showing 1 - 5 out of 8 results
No Thumbnail Available
Name:
A23N0001P-zadani_DP.pdf
Size:
23 KB
Format:
Adobe Portable Document Format
Description:
VŠKP - příloha
No Thumbnail Available
Name:
DP_Trestik_A23N0001P.pdf
Size:
1.26 MB
Format:
Adobe Portable Document Format
Description:
VŠKP
No Thumbnail Available
Name:
A23N0001P_prilohy_1.zip
Size:
1.16 GB
Format:
ZIP
Description:
VŠKP - příloha
No Thumbnail Available
Name:
A23N0001P_prilohy_2.zip
Size:
1.15 GB
Format:
ZIP
Description:
VŠKP - příloha
No Thumbnail Available
Name:
A23N0001P_prilohy_3.zip
Size:
1.01 GB
Format:
ZIP
Description:
VŠKP - příloha

Collections