Inteligentní vyhledávání dokumentů

Martínek, Jiří

Inteligentní vyhledávání dokumentů

Files

diplomova_prace__martinek.pdf (14.63 MB)

A15N0070Phodnoceni-ved.PDF (479.22 KB)

A15N0070Pposudek-op.PDF (387.14 KB)

A15N0070Pobhajoba.PDF (225.71 KB)

Date issued

2017

Authors

Martínek, Jiří

Publisher

Západočeská univerzita v Plzni

Abstract

Tato diplomová práce se zabývá problematikou vyhledávání informací v množině naskenovaných dokumentů v podobě rastrových obrázků. Nejdříve je proto proveden převod rastrového obrázku do textové podoby pomocí metod optického rozpoznávání znaků (OCR). V rámci převodu bohužel dochází k chybám, proto se další část práce zabývá samotnou opravou chyb. V práci je navrženo několik metod oprav chyb, které jsou zkombinovány pro dosažení co nejlepšího výsledku. Dále jsou opravené dokumenty zaindexovány do fulltextové databáze Apache Solr. Výsledná aplikace umožňuje efektivně najít požadovaný dokument dle fulltextového dotazu. Oprava chyb OCR převodu přispívá ke zvýšení přesnosti fulltextového vyhledávání. Přesnost systému byla experimentálně ověřena na dodaných datech z reálného prostředí.

Subject(s)

ocr, tesseract, vyhledávání informací, fulltextové vyhledávání, apache lucene, apache solr, strojové učení, zpracování přirozeného jazyka, jazykové modely, oprava chyb

Item identifier

http://hdl.handle.net/11025/27148

Collections

Theses (KIV)

Show full item record

Inteligentní vyhledávání dokumentů

Files

Date issued

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Subject(s)

Citation

Item identifier

Collections