Impact of the State-of-the-Art Methods on Camera Trap Image Classification

dc.contributor.authorVyskočil, Jiří
dc.date.accessioned2025-06-20T08:35:52Z
dc.date.available2025-06-20T08:35:52Z
dc.date.issued2024
dc.date.updated2025-06-20T08:35:52Z
dc.description.abstractCamera traps are valuable assets in ecological research. They are commonly used to estimate wildlife populations, species distribution, and interactions. In many cases, the data are still processed manually, which is extremely time-consuming, given the relatively high number of operated camera traps and their continuous data flow. Therefore, a concerted effort is being made to automate this process using machine learning and computer vision.This article compares Camera Trap Image Classification approaches with an adaptation of the Multi-Modal methods- BLIP by Li, et. al. (2022) and ChatGPT sourced from Ruu3f (2023). Even though the Multi-Modal methods have never seen the data used, they generate almost 1/3 correct predictions. However, the standard approaches based on the BEiTv2 classifier are noticeably more accurate, achieving up to 68.2% of accuracy on the CCT20 dataset.en
dc.description.abstractFotopasti jsou cenným přínosem pro ekologický výzkum. Běžně se používají k odhadu populací volně žijících živočichů, rozšíření druhů a jejich vzájemných vztahů. V mnoha případech jsou data stále zpracovávána ručně, což je vzhledem k poměrně vysokému počtu provozovaných fotopastí a jejich nepřetržitému toku dat časově velmi náročné. Proto je vyvíjena soustředěná snaha o automatizaci tohoto procesu pomocí strojového učení a počítačového vidění.Tento článek porovnává přístupy klasifikace obrazu z fotopastí s adaptací multimodálních metod - BLIP od Li, et. al. (2022) a ChatGPT pocházející od Ruu3f (2023). Přestože Multi-Modální metody nikdy neviděly použitá data, generují téměř 1/3 správných předpovědí. Standardní přístupy založené na klasifikátoru BEiTv2 jsou však znatelně přesnější a na datové sadě CCT20 dosahují až 68,2% přesnosti.cz
dc.format2
dc.identifier.isbn978-80-261-1228-0
dc.identifier.obd43944115
dc.identifier.orcidVyskočil, Jiří 0000-0002-6443-2051
dc.identifier.urihttp://hdl.handle.net/11025/60323
dc.language.isoen
dc.project.IDSGS-2022-017
dc.project.ID90140
dc.project.ID90104
dc.publisherZápadočeská univerzita v Plzni
dc.relation.ispartofseriesStudentská vědecká konference Fakulty aplikovaných věd 2024
dc.subjectcamera trapsen
dc.subjectclassificationen
dc.subjectretrievalen
dc.subjectBLIPen
dc.subjectDINOv2en
dc.subjectzero-shoten
dc.subjectvision and languageen
dc.subjectChatGPTen
dc.subjectSAMen
dc.subjectMegaDetectoren
dc.subjectfotopasticz
dc.subjectklasifikacecz
dc.subjectvyhledávánícz
dc.subjectBLIPcz
dc.subjectDINOv2cz
dc.subjectzero-shotcz
dc.subjectvidění a jazykcz
dc.subjectChatGPTcz
dc.subjectSAMcz
dc.subjectMegaDetectorcz
dc.titleImpact of the State-of-the-Art Methods on Camera Trap Image Classificationen
dc.titleVliv State-of-the-Art metod na klasifikaci snímků z fotopastícz
dc.typeStať ve sborníku (O)
dc.typeSTAŤ VE SBORNÍKU
dc.type.statusPublished Version
local.files.count1*
local.files.size3259360*
local.has.filesyes*

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
SVK2024___foundational_models.pdf
Size:
3.11 MB
Format:
Adobe Portable Document Format
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: