Segmentace historických obrazových dokumentů

dc.contributor.advisorLenc Ladislav, Ing. Ph.D.
dc.contributor.authorLiška, Miroslav
dc.contributor.refereeKrál Pavel, Doc. Ing. Ph.D.
dc.date.accepted2019-6-17
dc.date.accessioned2020-07-17T13:41:24Z
dc.date.available2018-9-10
dc.date.available2020-07-17T13:41:24Z
dc.date.issued2019
dc.date.submitted2019-5-16
dc.description.abstractSprávná segmentace obrazových dokumentů je jednou z nejdůležitějších součástí OCR systémů. Během ní jsou v obrázcích automaticky označovány oblasti zájmu, jako jsou například textové bloky, řádky textů, oddělovací čáry a jiné. Historické obrazové dokumenty jsou často různě deformované, obsahují šum a mají nepravidelnou strukturu a tak je úspěšná segmentace těchto dokumentů velkou výzvou. V rámci diplomové práce byly prozkoumány možné přístupy k segmentaci historických dokumentů a po následné analýze byly použity plně konvoluční neuronové sítě ARU-Net, U-Net a její úprava. Dále se práce věnuje tvorbě datové sady, zejména pak vytvoření očekávaných výsledků segmentace a nástrojům pro jejich vytvoření. Na základě dosažených výsledků modelů na této datové sadě je pro označování textu vybrána síť upravený U-Net, pro nalezení oddělovacích čar a pro označení řádků textu síť ARU-Net. Spojením výsledků jednotlivých sítí a jejich následným zpracováním byl vytvořen program, který ve vstupním obrázku detekuje a vyřezává řádky textu a to tak, aby bylo zachováno pořadí čtení. Takto získané řádky jsou vhodné pro další zpracování OCR.cs
dc.description.abstract-translatedCorrect segmentation of image documents is one of the most important tasks in OCR. During segmentation, areas of interests such as text blocks, text lines and separators are automatically labeled. Historical image documents are often malformed, contain noise and have irregular structure. Because of these issues, successful segmentation of such documents presents a difficult challenge. This Master's thesis explores possible approaches to segmentation of historical documents, after subsequent analysis, fully convolutional neural networks ARU-Net and U-net and its variations were used for this task. This thesis also deals with manual creation of a data set, particularly with creation of expected results of segmentation and suitable tools for achieving this task. Based on results obtained from models trained on the created data set, variation of the U-net network was selected for text labeling and ARU-net for finding of separators and labeling of lines of text. The result of this thesis a program combining results of individual neural networks. This program is able to detect and cut lines of text from input images while retaining reading order. Text lines obtained from this program are suitable for further OCR processing.en
dc.description.resultObhájenocs
dc.format92 s. (94837 znaků)cs
dc.format.mimetypeapplication/pdf
dc.identifier79568
dc.identifier.urihttp://hdl.handle.net/11025/37423
dc.language.isocscs
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezení.cs
dc.rights.accessopenAccessen
dc.subjectsegmentacecs
dc.subjecthistorické dokumentycs
dc.subjectkonvoluční neuronové sítěcs
dc.subject.translatedsegmentationen
dc.subject.translatedhistorical documentsen
dc.subject.translatedconvolutional neural networksen
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-levelNavazujícícs
dc.thesis.degree-nameIng.cs
dc.thesis.degree-programInženýrská informatikacs
dc.titleSegmentace historických obrazových dokumentůcs
dc.title.alternativeSegmentation of historical document imagesen
dc.typediplomová prácecs
local.relation.IShttps://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=79568

Files

Original bundle
Showing 1 - 4 out of 4 results
No Thumbnail Available
Name:
Liska_Miroslav_2019.pdf
Size:
55.15 MB
Format:
Adobe Portable Document Format
Description:
Plný text práce
No Thumbnail Available
Name:
A18N0094Phodnoceni-ved.PDF
Size:
373.24 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího práce
No Thumbnail Available
Name:
A18N0094Pposudek-op.PDF
Size:
414.16 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta práce
No Thumbnail Available
Name:
A18N0094Pobhajoba.PDF
Size:
192.36 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby práce

Collections

OPEN License Selector