Voice-Interactive Semantic Search Interface with Vector Databases

dc.contributor.authorBulín, Martin
dc.contributor.authorFrémund, Adam
dc.date.accessioned2025-06-20T08:36:13Z
dc.date.available2025-06-20T08:36:13Z
dc.date.issued2024
dc.date.updated2025-06-20T08:36:13Z
dc.description.abstractSemantic searching offers significant advantages over full-text search, particularly be- cause it allows users to formulate queries in natural language without needing to know the precise indexed key phrases. By using vector databases that store and index data as high- dimensional vectors, we can search through large datasets in real-time. In this work, we present a custom web-based interface for state-of-the-art semantic search on arbitrary textual data. Additionally, we integrate our in-house speech technologies - ASR and TTS to enhance user interaction. The interface supports two modes: 1) Searching based on retrieval- augmented generation (RAG) with an LLM generating answers in a chat-like format, and 2) raw semantic matching with indexed data. In both modes, the original PDF file is shown and the exact source of the retrieved information is provided.en
dc.description.abstractSémantické vyhledávání nabízí významné výhody oproti full-textovému vyhledávání, zejména proto, že uživatelům umožňuje formulovat dotazy v přirozeném jazyce, aniž by museli znát přesné indexované klíčové fráze. Použitím vektorových databází, které ukládají a indexují data jako vysoko-dimenzionální vektory, můžeme prohledávat rozsáhlé datové sady v reálném čase. V této práci představujeme vlastní webové rozhraní pro nejmodernější sémantické vyhledávání na libovolných textových datech. Dále integrujeme naše interní technologie pro rozpoznávání řeči (ASR) a syntézu řeči (TTS) ke zlepšení interakce s uživateli. Rozhraní podporuje dva režimy: 1) Vyhledávání založené na generování odpovědí s podporou získávání informací (RAG) s využitím velkého jazykového modelu (LLM), který generuje odpovědi ve formátu podobném chatu, a 2) surové sémantické párování s indexovanými daty. V obou režimech se zobrazuje původní PDF soubor a přesný zdroj získaných informací.cz
dc.format2
dc.identifier.isbn978-80-261-1228-0
dc.identifier.obd43944058
dc.identifier.orcidBulín, Martin 0000-0003-0276-3143
dc.identifier.orcidFrémund, Adam 0000-0001-8780-6629
dc.identifier.urihttp://hdl.handle.net/11025/60361
dc.language.isoen
dc.project.IDSGS-2022-017
dc.publisherZápadočeská univerzita v Plzni
dc.relation.ispartofseriesStudentská vědecká konference Fakulty aplikovaných věd 2024
dc.subjectsemantic searchen
dc.subjectRAGen
dc.subjectvoice-interactive interfaceen
dc.subjectsémantické vyhledávánícz
dc.subjectRAGcz
dc.subjecthlasově interaktivní rozhranícz
dc.titleVoice-Interactive Semantic Search Interface with Vector Databasesen
dc.titleHlasově interaktivní rozhraní s vektorovou databází pro sémantické vyhledávánícz
dc.typeStať ve sborníku (O)
dc.typeSTAŤ VE SBORNÍKU
dc.type.statusPublished Version
local.files.count1*
local.files.size2325813*
local.has.filesyes*

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
svk-2024-rag-demo.pdf
Size:
2.22 MB
Format:
Adobe Portable Document Format
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: