MQDD: Pre-training of Multimodal Question Duplicity Detection for Software Engineering Domain

Date issued

2023

Journal Title

Journal ISSN

Volume Title

Publisher

INCOMA Ltd.

Abstract

This work proposes a new pipeline for leveraging data collected on the Stack Overflow website for pre-training a multimodal model for searching duplicates on question answering websites. Our multimodal model is trained on question descriptions and source codes in multiple programming languages. We design two new learning objectives to improve duplicate detection capabilities. The result of this work is a mature, fine-tuned Multimodal Question Duplicity Detection (MQDD) model, ready to be integrated into a Stack Overflow search system, where it can help users find answers for already answered questions. Alongside the MQDD model, we release two datasets related to the software engineering domain. The first Stack Overflow Dataset (SOD) represents a massive corpus of paired questions and answers. The second Stack Overflow Duplicity Dataset (SODD) contains data for training duplicate detection models.
Tato práce navrhuje nový postup pro využití dat shromážděných na Stack Overflow pro předtrénování multimodálního modelu pro vyhledávání duplikátů na webových fórech. Náš multimodální model je trénován na textech otázek a zdrojových kódech ve více programovacích jazycích. Navrhujeme dva nové cíle učení, abychom zlepšili schopnosti detekce duplicit. Výsledkem této práce je vyladěný model multimodální detekce duplicity otázek (MQDD), který je připraven k integraci do vyhledávacího systému Stack Overflow, kde může pomoci uživatelům najít odpovědi na již zodpovězené otázky. Vedle modelu MQDD zveřejňujeme dvě datové sady týkající se softwarového inženýrství. v oblasti softwarového inženýrství. První datová sada Stack Overflow (SOD) představuje velký korpus párových otázek a odpovědí. Druhý Stack Overflow Duplicity Dataset (SODD) obsahuje data pro trénink modelů pro detekci duplicit.

Description

Subject(s)

multimodal mode, source code representation model, tack Overflow, BERT, Multimodální model, reprezentace zdrojového kódu, Stack Ovrlwfeo, BERT

Citation