Contrastive Learning for Fine-grained Visual Recognition
Date issued
2023
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Západočeská univerzita v Plzni
Abstract
Contrastive learning is a type of representation learning which retains a representation by comparing the input samples, e.g., images, video, text, and sound. Having good representation can be beneficial for the interpretability of Deep Neural Networks (DNNs) and for some downstream tasks like open-set recognition. Contrastive learning compares positive pairs of similar inputs and negative pairs of dissimilar inputs. The key component is the contrastive loss which measures the similarity between feature vectors and enforces minimization and maximization of the similarity between positive and negative pairs. Modern contrastive learning methods are often applied in self-supervised settings, while discriminative cross-entropy learning is widely used in supervised settings. In this work, we employ supervised contrastive learning to fine-tune DNNs for fine-grained recognition.
Kontrastivní učení je typ učení reprezentací, který zachovává reprezentaci porovnáváním vstupních vzorků, např. obrázků, videa, textu a zvuku. Mít dobrou reprezentaci může být přínosné pro interpretovatelnost hlubokých neuronových sítí (DNN) a pro některé navazující úlohy, jako je rozpoznávání otevřených množin. Kontrastivní učení porovnává pozitivní dvojice podobných vstupů a negativní dvojice nepodobných vstupů. Klíčovou složkou je kontrastní ztráta, která měří podobnost mezi vektory příznaků a vynucuje minimalizaci a maximalizaci podobnosti mezi pozitivními a negativními páry. Moderní metody kontrastního učení se často používají v prostředí s vlastním dohledem, zatímco diskriminační učení s křížovou entropií se široce používá v režimu učení s učitelem. V této práci využíváme kontrastní učení s učitelem k vyladění DNN pro detailní rozpoznávání.
Kontrastivní učení je typ učení reprezentací, který zachovává reprezentaci porovnáváním vstupních vzorků, např. obrázků, videa, textu a zvuku. Mít dobrou reprezentaci může být přínosné pro interpretovatelnost hlubokých neuronových sítí (DNN) a pro některé navazující úlohy, jako je rozpoznávání otevřených množin. Kontrastivní učení porovnává pozitivní dvojice podobných vstupů a negativní dvojice nepodobných vstupů. Klíčovou složkou je kontrastní ztráta, která měří podobnost mezi vektory příznaků a vynucuje minimalizaci a maximalizaci podobnosti mezi pozitivními a negativními páry. Moderní metody kontrastního učení se často používají v prostředí s vlastním dohledem, zatímco diskriminační učení s křížovou entropií se široce používá v režimu učení s učitelem. V této práci využíváme kontrastní učení s učitelem k vyladění DNN pro detailní rozpoznávání.
Description
Subject(s)
contrastive learning, visual recognition, kontrastivní učení, vizuální rozpoznávání