Automatické vyhodnocení četnosti výskytu chyb v reálných projektech
| dc.contributor.advisor | Lipka Richard, Ing. Ph.D. | cs |
| dc.contributor.author | Třeštík, Pavel | cs |
| dc.contributor.referee | Potužák Tomáš, Ing. Ph.D. | cs |
| dc.date.accepted | 2025-09-02 | |
| dc.date.accessioned | 2026-02-19T16:00:11Z | |
| dc.date.available | 2023-09-08 | |
| dc.date.available | 2026-02-19T16:00:11Z | |
| dc.date.issued | 2025-06-19 | |
| dc.date.submitted | 2025-06-19 | |
| dc.description.abstract | Tato diplomová práce se zabývá automatickou klasifikací softwarových zranitelností podle systému Common Weakness Enumeration (CWE). Výsledný klasifikátor může být použit k vyhodnocení četnosti CWE chyb na reálném projektu, nebo třeba přiřazování CWE k nově objeveným Common Vulnerabilities and Exposures (CVE). Nejprve jsou analyzovány dostupné datové zdroje a možné implementační techniky klasifikátoru. Hlavní pozornost je věnována předtrénovaným velkým jazykovým modelům (LLM). Je provedeno několik experimentů ve snaze vyladit kandidáty LLM na klasifikátor CWE. Nejvhodnějším základním modelem byl zvolen CodeT5 od společnosti Salesforce. Na základě provedených experimentů jsou použity dvě vyladěné konfigurace modelu CodeT5 pro použití na reálných datech. Pro zhodnocení modelu jsou použita unikátní data vycházející z datasetu CVEFixes. Následně je model také použit pro získání četností tříd CWE z vybraných GitHub projektů. Výsledný klasifikátor ovšem neprokazuje příliš dobré výsledky, a proto je otázkou, zda jsou LLM vhodnou volbou pro tento typ úlohy a zda by se budoucí práce neměly zaměřit na specializovanější architektury modelů. | cs |
| dc.description.abstract-translated | This thesis focuses the automatic classification of software vulnerabilities according to the Common Weakness Enumeration (CWE) system. The resulting classifier can be used to evaluate the frequency of CWE weaknesses in a real project, or for assigning CWE labels to newly discovered Common Vulnerabilities and Exposures (CVE). First, available data sources and possible implementation techniques for the classifier are analyzed. The main focus is on pretrained large language models (LLMs). Several experiments are conducted in an effort to fine-tune LLM candidates for CWE classification. The most suitable base model was determined to be CodeT5 from Salesforce. Based on the conducted experiments, two fine-tuned configurations of the CodeT5 model are used for real data. To evaluate the model, unique data derived from the CVEFixes dataset is used. Subsequently, the model is also used to obtain the frequency of CWE classes from selected GitHub projects. However, the resulting classifier does not show very good results, and it raises the question of whether LLMs are a suitable choice for this type of task, and whether future work should focus on more specialized model architectures. | en |
| dc.description.department | Katedra informatiky a výpočetní techniky | cs |
| dc.description.result | Obhájeno | cs |
| dc.format | 73 | |
| dc.identifier | 96765 | |
| dc.identifier.uri | http://hdl.handle.net/11025/64874 | |
| dc.language.iso | cs | |
| dc.publisher | Západočeská univerzita v Plzni | cs |
| dc.rights | Plný text práce je přístupný bez omezení | cs |
| dc.rights.access | openAccess | cs |
| dc.subject | CWE | cs |
| dc.subject | klasifikace zranitelností | cs |
| dc.subject | velké jazykové modely | cs |
| dc.subject | strojové učení | cs |
| dc.subject.translated | CWE | en |
| dc.subject.translated | vulnerability classification | en |
| dc.subject.translated | large language models | en |
| dc.subject.translated | machine learning | en |
| dc.thesis.degree-grantor | Západočeská univerzita v Plzni. Fakulta aplikovaných věd | cs |
| dc.thesis.degree-level | Navazující | cs |
| dc.thesis.degree-name | Ing. | cs |
| dc.thesis.degree-program | Softwarové a informační systémy | cs |
| dc.title | Automatické vyhodnocení četnosti výskytu chyb v reálných projektech | cs |
| dc.title.alternative | Automatic evaluation of the frequency of software errors in real projects | en |
| dc.type | diplomová práce | cs |
| local.files.count | 8 | * |
| local.files.size | 3564468481 | * |
| local.has.files | yes | * |
| local.relation.IS | https://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=96765 |
Files
Original bundle
1 - 5 out of 8 results
No Thumbnail Available
- Name:
- A23N0001P-zadani_DP.pdf
- Size:
- 23 KB
- Format:
- Adobe Portable Document Format
- Description:
- VŠKP - příloha
No Thumbnail Available
- Name:
- DP_Trestik_A23N0001P.pdf
- Size:
- 1.26 MB
- Format:
- Adobe Portable Document Format
- Description:
- VŠKP
No Thumbnail Available
- Name:
- A23N0001P_prilohy_1.zip
- Size:
- 1.16 GB
- Format:
- ZIP
- Description:
- VŠKP - příloha
No Thumbnail Available
- Name:
- A23N0001P_prilohy_2.zip
- Size:
- 1.15 GB
- Format:
- ZIP
- Description:
- VŠKP - příloha
No Thumbnail Available
- Name:
- A23N0001P_prilohy_3.zip
- Size:
- 1.01 GB
- Format:
- ZIP
- Description:
- VŠKP - příloha