Inteligentní vyhledávání dokumentů
| dc.contributor.advisor | Král Pavel, Doc. Ing. Ph.D. | |
| dc.contributor.author | Martínek, Jiří | |
| dc.contributor.referee | Lenc Ladislav, Ing. Ph.D. | |
| dc.date.accepted | 2017-6-20 | |
| dc.date.accessioned | 2018-01-15T15:02:17Z | |
| dc.date.available | 2016-9-1 | |
| dc.date.available | 2018-01-15T15:02:17Z | |
| dc.date.issued | 2017 | |
| dc.date.submitted | 2017-5-17 | |
| dc.description.abstract | Tato diplomová práce se zabývá problematikou vyhledávání informací v množině naskenovaných dokumentů v podobě rastrových obrázků. Nejdříve je proto proveden převod rastrového obrázku do textové podoby pomocí metod optického rozpoznávání znaků (OCR). V rámci převodu bohužel dochází k chybám, proto se další část práce zabývá samotnou opravou chyb. V práci je navrženo několik metod oprav chyb, které jsou zkombinovány pro dosažení co nejlepšího výsledku. Dále jsou opravené dokumenty zaindexovány do fulltextové databáze Apache Solr. Výsledná aplikace umožňuje efektivně najít požadovaný dokument dle fulltextového dotazu. Oprava chyb OCR převodu přispívá ke zvýšení přesnosti fulltextového vyhledávání. Přesnost systému byla experimentálně ověřena na dodaných datech z reálného prostředí. | cs |
| dc.description.abstract-translated | This diploma thesis deals with information retrieval in a set of scanned documents in form of raster images. First, the images are converted into the text form using optical character recognition (OCR) methods. Unfortunately, there are errors in conversion,therefore another part of the work deals with error correction. This thesis propose several error correction methods that are combined to achieve the best possible results. Then, the corrected documents are indexed into the full-text Apache Solr database. The resulting application allows to efficiently find the requested document according to a full-text query. Error correction of the OCR output helps to increase the accuracy of full-text search. The accuracy of the system was experimentally verified on the real data. | en |
| dc.description.result | Obhájeno | cs |
| dc.format | 66 s. | cs |
| dc.format.mimetype | application/pdf | |
| dc.identifier | 71475 | |
| dc.identifier.uri | http://hdl.handle.net/11025/27148 | |
| dc.language.iso | cs | cs |
| dc.publisher | Západočeská univerzita v Plzni | cs |
| dc.rights | Plný text práce je přístupný bez omezení. | cs |
| dc.rights.access | openAccess | en |
| dc.subject | ocr | cs |
| dc.subject | tesseract | cs |
| dc.subject | vyhledávání informací | cs |
| dc.subject | fulltextové vyhledávání | cs |
| dc.subject | apache lucene | cs |
| dc.subject | apache solr | cs |
| dc.subject | strojové učení | cs |
| dc.subject | zpracování přirozeného jazyka | cs |
| dc.subject | jazykové modely | cs |
| dc.subject | oprava chyb | cs |
| dc.subject.translated | ocr | en |
| dc.subject.translated | tesseract | en |
| dc.subject.translated | information retrieval | en |
| dc.subject.translated | fulltext searching | en |
| dc.subject.translated | apache lucene | en |
| dc.subject.translated | apache solr | en |
| dc.subject.translated | machine learning | en |
| dc.subject.translated | natural language processing | en |
| dc.subject.translated | language models | en |
| dc.subject.translated | error correction | en |
| dc.thesis.degree-grantor | Západočeská univerzita v Plzni. Fakulta aplikovaných věd | cs |
| dc.thesis.degree-level | Navazující | cs |
| dc.thesis.degree-name | Ing. | cs |
| dc.thesis.degree-program | Inženýrská informatika | cs |
| dc.title | Inteligentní vyhledávání dokumentů | cs |
| dc.title.alternative | Intelligent document searching | en |
| dc.type | diplomová práce | cs |
| local.relation.IS | https://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=71475 |
Files
Original bundle
1 - 4 out of 4 results
No Thumbnail Available
- Name:
- diplomova_prace__martinek.pdf
- Size:
- 14.63 MB
- Format:
- Adobe Portable Document Format
- Description:
- Plný text práce
No Thumbnail Available
- Name:
- A15N0070Phodnoceni-ved.PDF
- Size:
- 479.22 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek vedoucího práce
No Thumbnail Available
- Name:
- A15N0070Pposudek-op.PDF
- Size:
- 387.14 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek oponenta práce
No Thumbnail Available
- Name:
- A15N0070Pobhajoba.PDF
- Size:
- 225.71 KB
- Format:
- Adobe Portable Document Format
- Description:
- Průběh obhajoby práce