Klasifikace skenovaných dokumentů

Abstract

Tato bakalářská práce se zabývá tématem klasifikace skenovaných dokumentů. Cílem této práce je vyvinout klasifikátor, který bude schopen rozlišit naskenované dokumenty do celkem deseti tříd. Jako příznak se použije text, který je rozpoznán pomocí metod optického rozpoznávání znaků (OCR). Dále bude využita hluboká konvoluční neuronová síť, která zohlední vizuální příznaky. Nakonec bude vytvořen klasifikátor, který zohledňuje oba typy příznaků. Klasifikátor bude vyhodnocen na datové sadě dokumentů Tobacco-3482.

Description

Subject(s)

klasifikace dokumentu, skenovaný dokument, neuronová síť, klasifikace textu, klasifikace obrázku, ocr

Citation