Impact of the State-of-the-Art Methods on Camera Trap Image Classification
| dc.contributor.author | Vyskočil, Jiří | |
| dc.date.accessioned | 2025-06-20T08:35:52Z | |
| dc.date.available | 2025-06-20T08:35:52Z | |
| dc.date.issued | 2024 | |
| dc.date.updated | 2025-06-20T08:35:52Z | |
| dc.description.abstract | Camera traps are valuable assets in ecological research. They are commonly used to estimate wildlife populations, species distribution, and interactions. In many cases, the data are still processed manually, which is extremely time-consuming, given the relatively high number of operated camera traps and their continuous data flow. Therefore, a concerted effort is being made to automate this process using machine learning and computer vision.This article compares Camera Trap Image Classification approaches with an adaptation of the Multi-Modal methods- BLIP by Li, et. al. (2022) and ChatGPT sourced from Ruu3f (2023). Even though the Multi-Modal methods have never seen the data used, they generate almost 1/3 correct predictions. However, the standard approaches based on the BEiTv2 classifier are noticeably more accurate, achieving up to 68.2% of accuracy on the CCT20 dataset. | en |
| dc.description.abstract | Fotopasti jsou cenným přínosem pro ekologický výzkum. Běžně se používají k odhadu populací volně žijících živočichů, rozšíření druhů a jejich vzájemných vztahů. V mnoha případech jsou data stále zpracovávána ručně, což je vzhledem k poměrně vysokému počtu provozovaných fotopastí a jejich nepřetržitému toku dat časově velmi náročné. Proto je vyvíjena soustředěná snaha o automatizaci tohoto procesu pomocí strojového učení a počítačového vidění.Tento článek porovnává přístupy klasifikace obrazu z fotopastí s adaptací multimodálních metod - BLIP od Li, et. al. (2022) a ChatGPT pocházející od Ruu3f (2023). Přestože Multi-Modální metody nikdy neviděly použitá data, generují téměř 1/3 správných předpovědí. Standardní přístupy založené na klasifikátoru BEiTv2 jsou však znatelně přesnější a na datové sadě CCT20 dosahují až 68,2% přesnosti. | cz |
| dc.format | 2 | |
| dc.identifier.isbn | 978-80-261-1228-0 | |
| dc.identifier.obd | 43944115 | |
| dc.identifier.orcid | Vyskočil, Jiří 0000-0002-6443-2051 | |
| dc.identifier.uri | http://hdl.handle.net/11025/60323 | |
| dc.language.iso | en | |
| dc.project.ID | SGS-2022-017 | |
| dc.project.ID | 90140 | |
| dc.project.ID | 90104 | |
| dc.publisher | Západočeská univerzita v Plzni | |
| dc.relation.ispartofseries | Studentská vědecká konference Fakulty aplikovaných věd 2024 | |
| dc.subject | camera traps | en |
| dc.subject | classification | en |
| dc.subject | retrieval | en |
| dc.subject | BLIP | en |
| dc.subject | DINOv2 | en |
| dc.subject | zero-shot | en |
| dc.subject | vision and language | en |
| dc.subject | ChatGPT | en |
| dc.subject | SAM | en |
| dc.subject | MegaDetector | en |
| dc.subject | fotopasti | cz |
| dc.subject | klasifikace | cz |
| dc.subject | vyhledávání | cz |
| dc.subject | BLIP | cz |
| dc.subject | DINOv2 | cz |
| dc.subject | zero-shot | cz |
| dc.subject | vidění a jazyk | cz |
| dc.subject | ChatGPT | cz |
| dc.subject | SAM | cz |
| dc.subject | MegaDetector | cz |
| dc.title | Impact of the State-of-the-Art Methods on Camera Trap Image Classification | en |
| dc.title | Vliv State-of-the-Art metod na klasifikaci snímků z fotopastí | cz |
| dc.type | Stať ve sborníku (O) | |
| dc.type | STAŤ VE SBORNÍKU | |
| dc.type.status | Published Version | |
| local.files.count | 1 | * |
| local.files.size | 3259360 | * |
| local.has.files | yes | * |
Files
Original bundle
1 - 1 out of 1 results
No Thumbnail Available
- Name:
- SVK2024___foundational_models.pdf
- Size:
- 3.11 MB
- Format:
- Adobe Portable Document Format
License bundle
1 - 1 out of 1 results
No Thumbnail Available
- Name:
- license.txt
- Size:
- 1.71 KB
- Format:
- Item-specific license agreed upon to submission
- Description: