Exploring the Relationship between Dataset Size and Image Captioning Model Performance
| dc.contributor.author | Železný, Tomáš | |
| dc.date.accessioned | 2025-06-20T08:44:43Z | |
| dc.date.available | 2025-06-20T08:44:43Z | |
| dc.date.issued | 2023 | |
| dc.date.updated | 2025-06-20T08:44:43Z | |
| dc.description.abstract | Image captioning is a deep learning task, which goal is to automatically generate textual description of an input image. It is a complex task that requires identifying and interpreting visual information and generating grammatically correct and fluent sentences. Because different individuals may consider various aspects of an image important, there isn’t any single correct caption. This means that there is no ideal evaluation metric for measuring caption quality, as different metrics may better evaluate different attributes of the caption. Image captioning models, just like other deep learning models, need a large amount of training data and require a long time to train. In this work, we investigate the impact of using a smaller amount of training data on the performance of the standard image captioning model Oscar. | en |
| dc.description.abstract | Tvorba popisků k obrázkům je úloha hlubokého učení, jejímž cílem je automaticky generovat textový popis vstupního obrázku. Jedná se o komplexní úlohu, která vyžaduje identifikaci a interpretaci vizuálních informací a generování gramaticky správných a plynulých vět. Protože různí jedinci mohou považovat za důležité různé aspekty obrázku, neexistuje jediný správný popisek. To znamená, že neexistuje ideální hodnotící metrika pro měření kvality titulku, protože různé metriky mohou lépe hodnotit různé atributy titulku. Modely pro tvorbu popisků k obrázkům, stejně jako jiné modely hlubokého učení, potřebují velké množství trénovacích dat a jejich trénování vyžaduje dlouhou dobu. V této práci zkoumáme dopad použití menšího množství trénovacích dat na výkonnost standardního modelu pro tvorbu titulků k obrázkům Oscar. | cz |
| dc.format | 2 | |
| dc.identifier.isbn | 978-80-261-1161-0 | |
| dc.identifier.obd | 43940949 | |
| dc.identifier.orcid | Železný, Tomáš 0000-0002-0974-7069 | |
| dc.identifier.uri | http://hdl.handle.net/11025/60882 | |
| dc.language.iso | en | |
| dc.project.ID | SGS-2022-017 | |
| dc.project.ID | 90140 | |
| dc.project.ID | 90104 | |
| dc.publisher | Západočeská univerzita v Plzni | |
| dc.relation.ispartofseries | Studentská vědecká konference Fakulty aplikovaných věd 2023 | |
| dc.subject | Image captioning | en |
| dc.subject | en | |
| dc.subject | model popisování obrázků | cz |
| dc.subject | cz | |
| dc.title | Exploring the Relationship between Dataset Size and Image Captioning Model Performance | en |
| dc.title | Zkoumání vztahu mezi velikostí souboru dat a výkonností modelu popisování obrázků | cz |
| dc.type | Stať ve sborníku (O) | |
| dc.type | STAŤ VE SBORNÍKU | |
| dc.type.status | Published Version | |
| local.files.count | 1 | * |
| local.files.size | 425188 | * |
| local.has.files | yes | * |
Files
Original bundle
1 - 1 out of 1 results
No Thumbnail Available
- Name:
- Zelezny_svk_2023.pdf
- Size:
- 415.22 KB
- Format:
- Adobe Portable Document Format
License bundle
1 - 1 out of 1 results
No Thumbnail Available
- Name:
- license.txt
- Size:
- 1.71 KB
- Format:
- Item-specific license agreed upon to submission
- Description: