Detection of objects and their parts using Transformers
Date issued
2023
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Západočeská univerzita v Plzni
Abstract
Standard detection and segmentation methods find objects in an image that can often be clearly distinguished from each other. However, there are also tasks, e.g. Visual Question Answering, that require more detailed descriptions, such as attributes or relations with other objects. In such cases, there is already an intermingling, as a more detailed description can belong to several types of objects, e.g. the leg category can be part of the person category, but also the chair category.In this work, new basic methods for detecting objects and their parts are created. These methods are based on Transformers and the classification layer is created in the same way as in the case of the existing methods of the used dataset. Finally, the methods are compared and evaluated. The best-performing Transformer method is DAB-Deformable-DETR which achieves 35,2 AP for objects and 16,2 AP for parts.
Standardní metody detekce a segmentace nacházejí v obraze objekty, které lze často od sebe jasně odlišit. Existují však i úkoly, kupř. Visual Question Answering, které vyžadují podrobnější popisy, jako jsou atributy nebo vztahy s jinými objekty. V takových případech již dochází k prolínání, neboť podrobnější popis může patřit k více typům objektů, např. kategorie noha může být součástí kategorie osoba, ale také kategorie židle.V této práci jsou vytvořeny nové základní metody pro detekci objektů a jejich částí. Tyto metody jsou založeny na Transformers a klasifikační vrstva je vytvořena stejným způsobem jako v případě stávajících metod použitého datasetu. Nakonec jsou metody porovnány a vyhodnoceny. Nejvýkonnější metodou Transformer je DAB-Deformable-DETR, která dosahuje 35,2 AP pro objekty a 16,2 AP pro jejich části.
Standardní metody detekce a segmentace nacházejí v obraze objekty, které lze často od sebe jasně odlišit. Existují však i úkoly, kupř. Visual Question Answering, které vyžadují podrobnější popisy, jako jsou atributy nebo vztahy s jinými objekty. V takových případech již dochází k prolínání, neboť podrobnější popis může patřit k více typům objektů, např. kategorie noha může být součástí kategorie osoba, ale také kategorie židle.V této práci jsou vytvořeny nové základní metody pro detekci objektů a jejich částí. Tyto metody jsou založeny na Transformers a klasifikační vrstva je vytvořena stejným způsobem jako v případě stávajících metod použitého datasetu. Nakonec jsou metody porovnány a vyhodnoceny. Nejvýkonnější metodou Transformer je DAB-Deformable-DETR, která dosahuje 35,2 AP pro objekty a 16,2 AP pro jejich části.
Description
Subject(s)
computer vision, hierarchical object detection, transformers, DETR, počítačové vidění, Hherarchická detekce objektů, transformery, DETR