Klasifikace textových dokumentů pomocí neuronových sítí

Abstract

Bakalářská práce se zabývá automatickou klasifikací textových dokumentů pomocí neuronových sítí. Cílem práce je zjistit vliv metody předzpracování dokumentu na výslednou kvalitu klasifikace. Použité metody předzpracování jsou tokenizace, lemmatizace a stemming. Celkem bylo testováno pět architektur neuronových sítí: vícevrstvý perceptron, konvoluční neuronová síť, rekurentní neuronová sít a jejich kombinace. Testování bylo provedeno na české databázi CDCv2 a anglické RCV1-v2. Dosažené výsledky byly následne porovnány s literaturou.

Description

Subject(s)

klasifikace dokumentů, neuronové sítě, předzpracování

Citation