Voice-Interactive Semantic Search Interface with Vector Databases
Date issued
2024
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Západočeská univerzita v Plzni
Abstract
Semantic searching offers significant advantages over full-text search, particularly be- cause it allows users to formulate queries in natural language without needing to know the precise indexed key phrases. By using vector databases that store and index data as high- dimensional vectors, we can search through large datasets in real-time. In this work, we present a custom web-based interface for state-of-the-art semantic search on arbitrary textual data. Additionally, we integrate our in-house speech technologies - ASR and TTS to enhance user interaction. The interface supports two modes: 1) Searching based on retrieval- augmented generation (RAG) with an LLM generating answers in a chat-like format, and 2) raw semantic matching with indexed data. In both modes, the original PDF file is shown and the exact source of the retrieved information is provided.
Sémantické vyhledávání nabízí významné výhody oproti full-textovému vyhledávání, zejména proto, že uživatelům umožňuje formulovat dotazy v přirozeném jazyce, aniž by museli znát přesné indexované klíčové fráze. Použitím vektorových databází, které ukládají a indexují data jako vysoko-dimenzionální vektory, můžeme prohledávat rozsáhlé datové sady v reálném čase. V této práci představujeme vlastní webové rozhraní pro nejmodernější sémantické vyhledávání na libovolných textových datech. Dále integrujeme naše interní technologie pro rozpoznávání řeči (ASR) a syntézu řeči (TTS) ke zlepšení interakce s uživateli. Rozhraní podporuje dva režimy: 1) Vyhledávání založené na generování odpovědí s podporou získávání informací (RAG) s využitím velkého jazykového modelu (LLM), který generuje odpovědi ve formátu podobném chatu, a 2) surové sémantické párování s indexovanými daty. V obou režimech se zobrazuje původní PDF soubor a přesný zdroj získaných informací.
Sémantické vyhledávání nabízí významné výhody oproti full-textovému vyhledávání, zejména proto, že uživatelům umožňuje formulovat dotazy v přirozeném jazyce, aniž by museli znát přesné indexované klíčové fráze. Použitím vektorových databází, které ukládají a indexují data jako vysoko-dimenzionální vektory, můžeme prohledávat rozsáhlé datové sady v reálném čase. V této práci představujeme vlastní webové rozhraní pro nejmodernější sémantické vyhledávání na libovolných textových datech. Dále integrujeme naše interní technologie pro rozpoznávání řeči (ASR) a syntézu řeči (TTS) ke zlepšení interakce s uživateli. Rozhraní podporuje dva režimy: 1) Vyhledávání založené na generování odpovědí s podporou získávání informací (RAG) s využitím velkého jazykového modelu (LLM), který generuje odpovědi ve formátu podobném chatu, a 2) surové sémantické párování s indexovanými daty. V obou režimech se zobrazuje původní PDF soubor a přesný zdroj získaných informací.
Description
Subject(s)
semantic search, RAG, voice-interactive interface, sémantické vyhledávání, RAG, hlasově interaktivní rozhraní