Detection of objects and their parts using Transformers

dc.contributor.authorVyskočil, Jiří
dc.date.accessioned2025-06-20T08:55:14Z
dc.date.available2025-06-20T08:55:14Z
dc.date.issued2023
dc.date.updated2025-06-20T08:55:14Z
dc.description.abstractStandard detection and segmentation methods find objects in an image that can often be clearly distinguished from each other. However, there are also tasks, e.g. Visual Question Answering, that require more detailed descriptions, such as attributes or relations with other objects. In such cases, there is already an intermingling, as a more detailed description can belong to several types of objects, e.g. the leg category can be part of the person category, but also the chair category.In this work, new basic methods for detecting objects and their parts are created. These methods are based on Transformers and the classification layer is created in the same way as in the case of the existing methods of the used dataset. Finally, the methods are compared and evaluated. The best-performing Transformer method is DAB-Deformable-DETR which achieves 35,2 AP for objects and 16,2 AP for parts.en
dc.description.abstractStandardní metody detekce a segmentace nacházejí v obraze objekty, které lze často od sebe jasně odlišit. Existují však i úkoly, kupř. Visual Question Answering, které vyžadují podrobnější popisy, jako jsou atributy nebo vztahy s jinými objekty. V takových případech již dochází k prolínání, neboť podrobnější popis může patřit k více typům objektů, např. kategorie noha může být součástí kategorie osoba, ale také kategorie židle.V této práci jsou vytvořeny nové základní metody pro detekci objektů a jejich částí. Tyto metody jsou založeny na Transformers a klasifikační vrstva je vytvořena stejným způsobem jako v případě stávajících metod použitého datasetu. Nakonec jsou metody porovnány a vyhodnoceny. Nejvýkonnější metodou Transformer je DAB-Deformable-DETR, která dosahuje 35,2 AP pro objekty a 16,2 AP pro jejich části.cz
dc.format2
dc.identifier.isbn978-80-261-1161-0
dc.identifier.obd43940182
dc.identifier.orcidVyskočil, Jiří 0000-0002-6443-2051
dc.identifier.urihttp://hdl.handle.net/11025/61562
dc.language.isoen
dc.project.IDSGS-2022-017
dc.project.ID90140
dc.project.ID90104
dc.publisherZápadočeská univerzita v Plzni
dc.relation.ispartofseriesStudentská vědecká konference Fakulty aplikovaných věd 2023
dc.subjectcomputer visionen
dc.subjecthierarchical object detectionen
dc.subjecttransformersen
dc.subjectDETRen
dc.subjectpočítačové viděnícz
dc.subjectHherarchická detekce objektůcz
dc.subjecttransformerycz
dc.subjectDETRcz
dc.titleDetection of objects and their parts using Transformersen
dc.titleDetekce objektů a jejich částí pomocí Transformerůcz
dc.typeStať ve sborníku (O)
dc.typeSTAŤ VE SBORNÍKU
dc.type.statusPublished Version
local.files.count1*
local.files.size132029*
local.has.filesyes*

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
Vyskocil_SVK_2023.pdf
Size:
128.93 KB
Format:
Adobe Portable Document Format
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: