Exploring the Relationship between Dataset Size and Image Captioning Model Performance

dc.contributor.authorŽelezný, Tomáš
dc.date.accessioned2025-06-20T08:44:43Z
dc.date.available2025-06-20T08:44:43Z
dc.date.issued2023
dc.date.updated2025-06-20T08:44:43Z
dc.description.abstractImage captioning is a deep learning task, which goal is to automatically generate textual description of an input image. It is a complex task that requires identifying and interpreting visual information and generating grammatically correct and fluent sentences. Because different individuals may consider various aspects of an image important, there isn’t any single correct caption. This means that there is no ideal evaluation metric for measuring caption quality, as different metrics may better evaluate different attributes of the caption. Image captioning models, just like other deep learning models, need a large amount of training data and require a long time to train. In this work, we investigate the impact of using a smaller amount of training data on the performance of the standard image captioning model Oscar.en
dc.description.abstractTvorba popisků k obrázkům je úloha hlubokého učení, jejímž cílem je automaticky generovat textový popis vstupního obrázku. Jedná se o komplexní úlohu, která vyžaduje identifikaci a interpretaci vizuálních informací a generování gramaticky správných a plynulých vět. Protože různí jedinci mohou považovat za důležité různé aspekty obrázku, neexistuje jediný správný popisek. To znamená, že neexistuje ideální hodnotící metrika pro měření kvality titulku, protože různé metriky mohou lépe hodnotit různé atributy titulku. Modely pro tvorbu popisků k obrázkům, stejně jako jiné modely hlubokého učení, potřebují velké množství trénovacích dat a jejich trénování vyžaduje dlouhou dobu. V této práci zkoumáme dopad použití menšího množství trénovacích dat na výkonnost standardního modelu pro tvorbu titulků k obrázkům Oscar.cz
dc.format2
dc.identifier.isbn978-80-261-1161-0
dc.identifier.obd43940949
dc.identifier.orcidŽelezný, Tomáš 0000-0002-0974-7069
dc.identifier.urihttp://hdl.handle.net/11025/60882
dc.language.isoen
dc.project.IDSGS-2022-017
dc.project.ID90140
dc.project.ID90104
dc.publisherZápadočeská univerzita v Plzni
dc.relation.ispartofseriesStudentská vědecká konference Fakulty aplikovaných věd 2023
dc.subjectImage captioningen
dc.subjecten
dc.subjectmodel popisování obrázkůcz
dc.subjectcz
dc.titleExploring the Relationship between Dataset Size and Image Captioning Model Performanceen
dc.titleZkoumání vztahu mezi velikostí souboru dat a výkonností modelu popisování obrázkůcz
dc.typeStať ve sborníku (O)
dc.typeSTAŤ VE SBORNÍKU
dc.type.statusPublished Version
local.files.count1*
local.files.size425188*
local.has.filesyes*

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
Zelezny_svk_2023.pdf
Size:
415.22 KB
Format:
Adobe Portable Document Format
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: