MQDD: Pre-training of Multimodal Question Duplicity Detection for Software Engineering Domain

dc.contributor.authorPašek, Jan
dc.contributor.authorSido, Jakub
dc.contributor.authorKonopík, Miloslav
dc.contributor.authorPražák, Ondřej
dc.date.accessioned2025-06-20T08:44:31Z
dc.date.available2025-06-20T08:44:31Z
dc.date.issued2023
dc.date.updated2025-06-20T08:44:31Z
dc.description.abstractThis work proposes a new pipeline for leveraging data collected on the Stack Overflow website for pre-training a multimodal model for searching duplicates on question answering websites. Our multimodal model is trained on question descriptions and source codes in multiple programming languages. We design two new learning objectives to improve duplicate detection capabilities. The result of this work is a mature, fine-tuned Multimodal Question Duplicity Detection (MQDD) model, ready to be integrated into a Stack Overflow search system, where it can help users find answers for already answered questions. Alongside the MQDD model, we release two datasets related to the software engineering domain. The first Stack Overflow Dataset (SOD) represents a massive corpus of paired questions and answers. The second Stack Overflow Duplicity Dataset (SODD) contains data for training duplicate detection models.en
dc.description.abstractTato práce navrhuje nový postup pro využití dat shromážděných na Stack Overflow pro předtrénování multimodálního modelu pro vyhledávání duplikátů na webových fórech. Náš multimodální model je trénován na textech otázek a zdrojových kódech ve více programovacích jazycích. Navrhujeme dva nové cíle učení, abychom zlepšili schopnosti detekce duplicit. Výsledkem této práce je vyladěný model multimodální detekce duplicity otázek (MQDD), který je připraven k integraci do vyhledávacího systému Stack Overflow, kde může pomoci uživatelům najít odpovědi na již zodpovězené otázky. Vedle modelu MQDD zveřejňujeme dvě datové sady týkající se softwarového inženýrství. v oblasti softwarového inženýrství. První datová sada Stack Overflow (SOD) představuje velký korpus párových otázek a odpovědí. Druhý Stack Overflow Duplicity Dataset (SODD) obsahuje data pro trénink modelů pro detekci duplicit.cz
dc.format12
dc.identifier.doi10.26615/978-954-452-092-2_089
dc.identifier.isbn978-954-452-092-2
dc.identifier.obd43941054
dc.identifier.orcidSido, Jakub 0000-0002-7709-7512
dc.identifier.orcidKonopík, Miloslav 0000-0001-7397-1658
dc.identifier.orcidPražák, Ondřej 0000-0001-5445-7792
dc.identifier.urihttp://hdl.handle.net/11025/60862
dc.language.isoen
dc.project.IDSGS-2022-016
dc.publisherINCOMA Ltd.
dc.relation.ispartofseriesInternational Conference Recent Advances in Natural Language Processing
dc.subjectmultimodal modeen
dc.subjectsource code representation modelen
dc.subjecttack Overflowen
dc.subjectBERTen
dc.subjectMultimodální modelcz
dc.subjectreprezentace zdrojového kóducz
dc.subjectStack Ovrlwfeocz
dc.subjectBERTcz
dc.titleMQDD: Pre-training of Multimodal Question Duplicity Detection for Software Engineering Domainen
dc.titleVícejazyčné hledání koreferencí s harmonizovanými anotacemicz
dc.typeStať ve sborníku (D)
dc.typeSTAŤ VE SBORNÍKU
dc.type.statusPublished Version
local.files.count1*
local.files.size442546*
local.has.filesyes*
local.identifier.eid2-s2.0-85179183220

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
Pražák 2023.ranlp-MQDD.pdf
Size:
432.17 KB
Format:
Adobe Portable Document Format
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: