Exploring the Relationship between Dataset Size and Image Captioning Model Performance
Date issued
2023
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Západočeská univerzita v Plzni
Abstract
Image captioning is a deep learning task, which goal is to automatically generate textual description of an input image. It is a complex task that requires identifying and interpreting visual information and generating grammatically correct and fluent sentences. Because different individuals may consider various aspects of an image important, there isn’t any single correct caption. This means that there is no ideal evaluation metric for measuring caption quality, as different metrics may better evaluate different attributes of the caption. Image captioning models, just like other deep learning models, need a large amount of training data and require a long time to train. In this work, we investigate the impact of using a smaller amount of training data on the performance of the standard image captioning model Oscar.
Tvorba popisků k obrázkům je úloha hlubokého učení, jejímž cílem je automaticky generovat textový popis vstupního obrázku. Jedná se o komplexní úlohu, která vyžaduje identifikaci a interpretaci vizuálních informací a generování gramaticky správných a plynulých vět. Protože různí jedinci mohou považovat za důležité různé aspekty obrázku, neexistuje jediný správný popisek. To znamená, že neexistuje ideální hodnotící metrika pro měření kvality titulku, protože různé metriky mohou lépe hodnotit různé atributy titulku. Modely pro tvorbu popisků k obrázkům, stejně jako jiné modely hlubokého učení, potřebují velké množství trénovacích dat a jejich trénování vyžaduje dlouhou dobu. V této práci zkoumáme dopad použití menšího množství trénovacích dat na výkonnost standardního modelu pro tvorbu titulků k obrázkům Oscar.
Tvorba popisků k obrázkům je úloha hlubokého učení, jejímž cílem je automaticky generovat textový popis vstupního obrázku. Jedná se o komplexní úlohu, která vyžaduje identifikaci a interpretaci vizuálních informací a generování gramaticky správných a plynulých vět. Protože různí jedinci mohou považovat za důležité různé aspekty obrázku, neexistuje jediný správný popisek. To znamená, že neexistuje ideální hodnotící metrika pro měření kvality titulku, protože různé metriky mohou lépe hodnotit různé atributy titulku. Modely pro tvorbu popisků k obrázkům, stejně jako jiné modely hlubokého učení, potřebují velké množství trénovacích dat a jejich trénování vyžaduje dlouhou dobu. V této práci zkoumáme dopad použití menšího množství trénovacích dat na výkonnost standardního modelu pro tvorbu titulků k obrázkům Oscar.
Description
Subject(s)
Image captioning, , model popisování obrázků,