Klasifikace skenovaných dokumentů
Date issued
2024
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Západočeská univerzita v Plzni
Abstract
Tato bakalářská práce se zabývá tématem klasifikace skenovaných dokumentů. Cílem této práce je vyvinout klasifikátor, který bude schopen rozlišit naskenované dokumenty do celkem deseti tříd.
Jako příznak se použije text, který je rozpoznán pomocí metod optického rozpoznávání znaků (OCR). Dále bude využita hluboká konvoluční neuronová síť, která zohlední vizuální příznaky. Nakonec bude vytvořen klasifikátor, který zohledňuje oba typy příznaků. Klasifikátor bude vyhodnocen na datové sadě dokumentů Tobacco-3482.
Description
Subject(s)
klasifikace dokumentu, skenovaný dokument, neuronová síť, klasifikace textu, klasifikace obrázku, ocr